Усічені та цензуровані дані: визначення + приклади
Часто під час збору даних дослідники можуть вирішити цензурувати або скоротити певні значення.
Цензура значень даних означає збір лише часткової інформації про значення нижче або вище певного значення.
Наприклад, ми можемо знати, що людина заробляє менше 25 000 доларів на рік, але можемо не знати її точний річний дохід.
Усічення значень даних означає видалення значень із набору даних, які нижче або вище певного значення.
Наприклад, дослідника можуть цікавити лише особи, які заробляють понад 25 000 доларів на рік. Тож будь-хто, хто заробляє менше 25 000 доларів, просто видаляється з набору даних.
У цьому посібнику наведено кілька прикладів того, коли дані можуть бути піддані цензурі або скорочені.
Цензура даних
Цензура значень даних означає збір лише часткової інформації про значення нижче або вище певного значення.
Наведені нижче приклади ілюструють сценарії, за яких ми можемо вирішити цензурувати значення даних.
Приклад 1: Річний дохід
Припустимо, дослідник збирає дані опитування про річний дохід. Якщо особа заробляє менше 25 000 доларів США на рік, вона вирішує повідомити про цей дохід у базі даних як «<25 000 доларів США», а не вказувати свій точний річний дохід.
Це є прикладом цензури даних, оскільки ми знаємо, що особа заробляє менше певної суми, але ми не знаємо її точний річний дохід.
Приклад 2: рівень забруднення
Припустімо, що біолог використовує певний інструмент для вимірювання рівнів забруднення в різних водоймах. Його інструмент не в змозі виміряти рівень забруднення нижче 0,002 частки на мільйон. Таким чином, будь-яка водойма з рівнем забруднення нижче цього порогу буде просто повідомлена як “<0,002”, а не як точна кількість.
Це є прикладом цензури даних, оскільки ми знаємо, що деякі водойми мають рівень забруднення нижче 0,002 частки на мільйон, але ми не знаємо їхній точний рівень забруднення.
Обрізати дані
Усічення значень даних означає видалення значень із набору даних, які нижче або вище певного значення.
Наступні приклади ілюструють сценарії, у яких ми можемо вирішити скоротити значення даних.
Приклад 1: Кількість злочинів
Припустимо, співробітник правоохоронних органів досліджує види злочинів, вчинених особами на певній території. За замовчуванням усі, хто вчинив 0 злочинів, не будуть включені до набору даних, оскільки вони не вчиняли жодного виду злочину.
Це приклад скорочених даних, оскільки будь-хто, хто не вчинив злочину, просто повністю виключається з набору даних.
Приклад 2: Рівень освіти
Припустімо, професор хоче вивчити зв’язок між певною навчальною програмою та результатами студентів.
Через інтенсивність навчального плану професор бажає відвідувати лише студентів, які наразі мають середній бал вище 3,5. Тому будь-який студент, який подає заявку на програму, але має середній бал нижче 3,5, просто не буде включений до програми.
Це приклад скорочених даних, оскільки кожен, чий середній бал нижче певного порогу, просто виключається з набору даних.
Резюме
Цензурування даних означає збір лише часткової інформації про значення даних, а скорочення даних означає повне видалення значень даних із набору даних.
І цензурування, і скорочення призводять до втрати інформації в наборі даних, але скорочення призводить до більшої втрати інформації, оскільки передбачає повне виключення певних значень даних.