Усеченные и подвергнутые цензуре данные: определение + примеры
Часто при сборе данных исследователи могут принять решение о цензуре или сокращении определенных значений.
Цензура значений данных означает сбор только частичной информации о значениях ниже или выше определенного значения.
Например, мы можем знать, что человек зарабатывает менее 25 000 долларов в год, но можем не знать его точный годовой доход.
Усечение значений данных означает удаление из набора данных значений, которые ниже или выше определенного значения.
Например, исследователя могут интересовать только лица, которые зарабатывают более 25 000 долларов в год. Таким образом, любой, кто зарабатывает менее 25 000 долларов, просто удаляется из набора данных.
В этом руководстве представлено несколько примеров того, когда данные могут быть подвергнуты цензуре или сокращению.
Цензура данных
Цензура значений данных означает сбор только частичной информации о значениях ниже или выше определенного значения.
Следующие примеры иллюстрируют сценарии, в которых мы можем принять решение подвергнуть цензуре значения данных.
Пример 1: Годовой доход
Предположим, исследователь собирает данные опроса о годовом доходе. Если человек зарабатывает менее 25 000 долларов в год, он решает указать этот доход как «<25 000 долларов» в базе данных, а не указывать свой точный годовой доход.
Это представляет собой пример цензуры данных, поскольку мы знаем, что человек зарабатывает меньше определенной суммы, но не знаем его точный годовой доход.
Пример 2: уровни загрязнения
Предположим, биолог использует определенный инструмент для измерения уровня загрязнения в различных водоемах. Его инструмент не способен измерять загрязнение ниже 0,002 частей на миллион. Следовательно, любой водоем с уровнем загрязнения ниже этого порога будет просто указан как «<0,002», а не как точное количество.
Это представляет собой пример цензуры данных, поскольку мы знаем, что некоторые водоемы имеют уровень загрязнения ниже 0,002 частей на миллион, но мы не знаем их точных уровней загрязнения.
Усечь данные
Усечение значений данных означает удаление из набора данных значений, которые ниже или выше определенного значения.
Следующие примеры иллюстрируют сценарии, в которых мы можем принять решение об усечении значений данных.
Пример 1: Количество преступлений
Предположим, сотрудник правоохранительных органов исследует виды преступлений, совершенных отдельными лицами на определенной территории. По умолчанию лица, совершившие 0 преступлений, не будут включены в набор данных, поскольку они не совершали никаких преступлений.
Это представляет собой пример усеченных данных, поскольку любой, кто не совершил никакого преступления, просто полностью исключается из набора данных.
Пример 2: Уровень образования
Предположим, профессор хочет изучить взаимосвязь между определенной учебной программой и успеваемостью студентов.
Из-за интенсивности учебной программы профессор желает обучаться только у студентов, средний балл которых в настоящее время превышает 3,5. Таким образом, любой студент, подающий заявку на участие в программе, но имеющий средний балл ниже 3,5, просто не будет включен в программу.
Это представляет собой пример усеченных данных, поскольку любой, чей средний балл ниже определенного порога, просто исключается из набора данных.
Краткое содержание
Цензура данных означает сбор только частичной информации о значениях данных, а усечение данных означает полное удаление значений данных из набора данных.
И цензура, и усечение приводят к потере информации в наборе данных, но усечение приводит к большей потере информации, поскольку предполагает полное исключение определенных значений данных.