Gekürzte und zensierte daten: definition + beispiele
Beim Sammeln von Daten entscheiden sich Forscher oft dafür, bestimmte Werte zu zensieren oder abzuschneiden .
Datenwerte zu zensieren bedeutet, nur Teilinformationen über Werte zu sammeln, die unter oder über einem bestimmten Wert liegen.
Beispielsweise wissen wir möglicherweise, dass eine Person weniger als 25.000 US-Dollar pro Jahr verdient, kennen aber möglicherweise nicht ihr genaues Jahreseinkommen.
Das Abschneiden von Datenwerten bedeutet, Werte aus einem Datensatz zu entfernen, die unter oder über einem bestimmten Wert liegen.
Beispielsweise könnte ein Forscher nur an Personen interessiert sein, die mehr als 25.000 US-Dollar pro Jahr verdienen. Wer also weniger als 25.000 US-Dollar verdient, wird einfach aus dem Datensatz entfernt.
Dieses Tutorial enthält mehrere Beispiele dafür, wann Daten zensiert oder gekürzt werden können.
Datenzensur
Datenwerte zu zensieren bedeutet, nur Teilinformationen über Werte zu sammeln, die unter oder über einem bestimmten Wert liegen.
Die folgenden Beispiele veranschaulichen Szenarien, in denen wir uns möglicherweise für die Zensur von Datenwerten entscheiden.
Beispiel 1: Jahreseinkommen
Angenommen, ein Forscher sammelt Umfragedaten zum Jahreseinkommen. Wenn eine Person weniger als 25.000 US-Dollar pro Jahr verdient, entscheidet sie sich, dieses Einkommen in einer Datenbank als „<25.000 US-Dollar“ anzugeben, anstatt ihr genaues Jahreseinkommen anzugeben.
Dies stellt ein Beispiel für Datenzensur dar, da wir zwar wissen, dass eine Person weniger als einen bestimmten Betrag verdient, ihr genaues Jahreseinkommen jedoch nicht kennen.
Beispiel 2: Verschmutzungsgrad
Angenommen, ein Biologe verwendet ein bestimmtes Instrument, um den Verschmutzungsgrad in verschiedenen Gewässern zu messen. Sein Tool ist nicht in der Lage, die Verschmutzung unter 0,002 Teilen pro Million zu messen. Daher wird jedes Gewässer, dessen Verschmutzungsgrad unter diesem Grenzwert liegt, einfach mit „<0,002“ und nicht mit der genauen Menge gemeldet.
Dies stellt ein Beispiel für Datenzensur dar, da wir wissen, dass einige Gewässer einen Verschmutzungsgrad von weniger als 0,002 Teilen pro Million aufweisen, der genaue Verschmutzungsgrad jedoch nicht bekannt ist.
Daten kürzen
Das Abschneiden von Datenwerten bedeutet, Werte aus einem Datensatz zu entfernen, die unter oder über einem bestimmten Wert liegen.
Die folgenden Beispiele veranschaulichen Szenarien, in denen wir uns möglicherweise für das Abschneiden von Datenwerten entscheiden.
Beispiel 1: Anzahl der Straftaten
Angenommen, ein Polizeibeamter untersucht die Arten von Straftaten, die von Einzelpersonen in einem bestimmten Gebiet begangen werden. Standardmäßig werden Personen, die 0 Straftaten begangen haben, nicht in den Datensatz aufgenommen, da sie keinerlei Straftaten begangen haben.
Dies stellt ein Beispiel für verkürzte Daten dar, da jeder, der keine Straftat begangen hat, einfach vollständig aus dem Datensatz ausgeschlossen wird.
Beispiel 2: Bildungsniveau
Angenommen, ein Professor möchte den Zusammenhang zwischen einem bestimmten Lehrplan und den Ergebnissen der Studierenden untersuchen.
Aufgrund der Intensität des Lehrplans möchte der Professor nur Studierende betreuen, die derzeit einen Notendurchschnitt von über 3,5 haben. Daher wird jeder Student, der sich für das Programm bewirbt, aber einen GPA unter 3,5 hat, einfach nicht in das Programm aufgenommen.
Dies stellt ein Beispiel für abgeschnittene Daten dar, da jeder, dessen GPA unter einem bestimmten Schwellenwert liegt, einfach aus dem Datensatz ausgeschlossen wird.
Zusammenfassung
Daten zu zensieren bedeutet, nur Teilinformationen über Datenwerte zu sammeln, und Daten zu kürzen bedeutet, Datenwerte vollständig aus einem Datensatz zu entfernen.
Sowohl Zensur als auch Kürzung führen zu einem Informationsverlust in einem Datensatz, Kürzung führt jedoch zu einem größeren Informationsverlust, da dabei bestimmte Datenwerte vollständig ausgeschlossen werden.