Obcięte i ocenzurowane dane: definicja + przykłady
Często podczas zbierania danych badacze mogą zdecydować się na ocenzurowanie lub obcięcie pewnych wartości.
Cenzurowanie wartości danych oznacza zbieranie jedynie częściowych informacji o wartościach poniżej lub powyżej określonej wartości.
Na przykład możemy wiedzieć, że dana osoba zarabia mniej niż 25 000 dolarów rocznie, ale możemy nie znać jej dokładnego rocznego dochodu.
Obcięcie wartości danych oznacza usunięcie ze zbioru danych wartości znajdujących się poniżej lub powyżej określonej wartości.
Na przykład badacz może być zainteresowany tylko osobami, które zarabiają więcej niż 25 000 dolarów rocznie. Zatem każdy, kto zarabia mniej niż 25 000 dolarów, jest po prostu usuwany ze zbioru danych.
W tym samouczku przedstawiono kilka przykładów sytuacji, w których dane mogą zostać ocenzurowane lub obcięte.
Cenzura danych
Cenzurowanie wartości danych oznacza zbieranie jedynie częściowych informacji o wartościach poniżej lub powyżej określonej wartości.
Poniższe przykłady ilustrują scenariusze, w których możemy zdecydować się na cenzurę wartości danych.
Przykład 1: Dochód roczny
Załóżmy, że badacz zbiera dane z ankiety na temat rocznych dochodów. Jeśli dana osoba zarabia mniej niż 25 000 dolarów rocznie, decyduje się zgłosić ten dochód w bazie danych jako „<25 000 dolarów”, zamiast podawać dokładny roczny dochód.
Stanowi to przykład cenzury danych, ponieważ wiemy, że dana osoba zarabia mniej niż określona kwota, ale nie znamy jej dokładnego rocznego dochodu.
Przykład 2: poziomy zanieczyszczeń
Załóżmy, że biolog używa pewnego narzędzia do pomiaru poziomu zanieczyszczeń w różnych zbiornikach wodnych. Jego narzędzie nie jest w stanie zmierzyć zanieczyszczenia poniżej 0,002 części na milion. Dlatego każda część wód o poziomie zanieczyszczeń poniżej tego progu będzie po prostu zgłaszana jako „<0,002”, a nie jako dokładna ilość.
Stanowi to przykład cenzury danych, ponieważ wiemy, że poziom zanieczyszczeń w niektórych zbiornikach wodnych wynosi poniżej 0,002 części na milion, ale nie znamy dokładnego poziomu zanieczyszczenia.
Obetnij dane
Obcięcie wartości danych oznacza usunięcie ze zbioru danych wartości znajdujących się poniżej lub powyżej określonej wartości.
Poniższe przykłady ilustrują scenariusze, w których możemy zdecydować się na obcięcie wartości danych.
Przykład 1: Liczba przestępstw
Załóżmy, że funkcjonariusz organów ścigania bada rodzaje przestępstw popełnianych przez osoby fizyczne na określonym obszarze. Domyślnie każda osoba, która popełniła 0 przestępstw, nie zostanie uwzględniona w zbiorze danych, ponieważ nie popełniła żadnego rodzaju przestępstwa.
Stanowi to przykład obciętych danych, ponieważ każdy, kto nie popełnił żadnego przestępstwa, jest po prostu całkowicie wykluczany ze zbioru danych.
Przykład 2: Poziom wykształcenia
Załóżmy, że profesor chce zbadać związek między określonym programem nauczania a wynikami uczniów.
Ze względu na intensywność zajęć profesor pragnie uczyć się wyłącznie studentów, którzy aktualnie posiadają średnią ocen powyżej 3,5. Dlatego każdy student ubiegający się o udział w programie, ale posiadający średnią ocen poniżej 3,5, po prostu nie zostanie uwzględniony w programie.
Stanowi to przykład obciętych danych, ponieważ każda osoba, której średnia ocen jest niższa od określonego progu, jest po prostu wykluczana ze zbioru danych.
Streszczenie
Cenzurowanie danych oznacza zbieranie jedynie częściowych informacji o wartościach danych, a obcinanie danych oznacza całkowite usuwanie wartości danych ze zbioru danych.
Zarówno cenzurowanie, jak i obcinanie powodują utratę informacji w zestawie danych, ale obcinanie powoduje większą utratę informacji, ponieważ wiąże się z całkowitym wykluczeniem pewnych wartości danych.