Что считается необработанными данными? (определение и примеры)
В статистике необработанные данные относятся к данным, которые были собраны непосредственно из первичного источника и не подвергались какой-либо обработке.
В любом проекте анализа данных первым шагом является сбор необработанных данных. После сбора этих данных их можно очистить, преобразовать, обобщить и визуализировать.
Преимущество сбора необработанных данных заключается в том, что в конечном итоге их можно будет использовать для лучшего понимания определенных явлений или для построения своего рода прогнозной модели.
Следующий пример иллюстрирует, как можно собирать и использовать необработанные данные в реальной жизни.
Пример: сбор и использование необработанных данных
Спорт – это область, где часто собираются необработанные данные. Например, необработанные данные могут быть собраны для различных статистических данных о профессиональных баскетболистах.
Шаг 1. Соберите необработанные данные
Представьте себе, что баскетбольный скаут собирает следующие исходные данные по 10 игрокам профессиональной баскетбольной команды:
Этот набор данных представляет собой необработанные данные , поскольку они собираются непосредственно скаутом и не подвергались какой-либо очистке или обработке.
Шаг 2. Очистите необработанные данные
Прежде чем использовать эти данные для создания сводных таблиц, графиков или чего-либо еще, разведчик должен сначала удалить все пропущенные значения и очистить все «грязные» значения данных.
Например, мы можем обнаружить в наборе данных несколько значений, которые необходимо преобразовать или удалить:
Разведчик может решить полностью удалить последнюю строку, поскольку в ней есть несколько пропущенных значений. Затем он может очистить значения символов в наборе данных, чтобы получить следующие «чистые» данные:
Шаг 3: Обобщите данные
После очистки данных разведчик может суммировать каждую переменную в наборе данных. Например, он может вычислить следующую сводную статистику для переменной «Минуты»:
- Среднее : 24 минуты
- Медиана : 22 минуты
- Стандартное отклонение : 9,45 минут.
Шаг 4. Визуализируйте данные
Затем разведчик может визуализировать переменные в наборе данных, чтобы лучше понять значения данных.
Например, он мог бы создать следующую гистограмму, чтобы визуализировать общее количество минут, сыгранных каждым игроком:
Или он мог бы создать следующую диаграмму рассеяния, чтобы визуализировать взаимосвязь между сыгранными минутами и набранными очками:
Каждый из этих типов диаграмм может помочь ему лучше понять данные.
Шаг 5. Используйте данные для построения модели
Наконец, как только данные будут очищены, разведчик может принять решение адаптировать тот или иной тип прогнозной модели.
Например, он может соответствовать простой модели линейной регрессии и использовать сыгранные минуты для прогнозирования общего количества очков, набранных каждым игроком.
Подобранное уравнение регрессии:
Баллы = 8,7012 + 0,2717*(минуты)
Затем разведчик может использовать это уравнение, чтобы предсказать количество очков, которые игрок наберет, исходя из количества сыгранных минут. Например, спортсмен, сыгравший 30 минут, должен набрать 16,85 балла:
Баллы = 8,7012 + 0,2717*(30) = 16,85
Дополнительные ресурсы
Почему важна статистика?
Почему размер выборки важен в статистике?
Что такое наблюдение в статистике?
Что такое табличные данные в статистике?