Що вважається необробленими даними? (визначення та приклади)
У статистиці необроблені дані стосуються даних, які були зібрані безпосередньо з первинного джерела та жодним чином не оброблені.
У будь-якому типі проекту аналітики даних першим кроком є збір необроблених даних. Коли ці дані зібрані, їх можна очистити, трансформувати, узагальнити та візуалізувати.
Перевага збору необроблених даних полягає в тому, що зрештою можна використовувати їх для кращого розуміння певних явищ або використовувати їх для побудови типу прогнозної моделі.
Наступний приклад ілюструє, як необроблені дані можна збирати та використовувати в реальному житті.
Приклад: збір і використання необроблених даних
Спорт – це сфера, де часто збирають необроблені дані. Наприклад, необроблені дані можна зібрати для різних статистичних даних щодо професійних баскетболістів.
Крок 1: Зберіть необроблені дані
Уявіть, що баскетбольний скаут збирає такі необроблені дані про 10 гравців професійної баскетбольної команди:
Цей набір даних представляє необроблені дані , оскільки вони збираються безпосередньо розвідником і жодним чином не очищаються чи обробляються.
Крок 2. Очистіть необроблені дані
Перш ніж використовувати ці дані для створення підсумкових таблиць, графіків або будь-чого іншого, розвідник повинен спочатку видалити будь-які відсутні значення та очистити всі «брудні» значення даних.
Наприклад, ми можемо помітити кілька значень у наборі даних, які потрібно трансформувати або видалити:
Розвідник може вирішити повністю видалити останній рядок, оскільки в ньому бракує кількох значень. Потім він може очистити значення символів у наборі даних, щоб отримати такі «чисті» дані:
Крок 3: Узагальніть дані
Після очищення даних розвідник може узагальнити кожну змінну в наборі даних. Наприклад, він може обчислити наступну підсумкову статистику для змінної «Хвилини»:
- Середня тривалість : 24 хвилини
- Медіана : 22 хвилини
- Стандартне відхилення : 9,45 хвилин
Крок 4: Візуалізуйте дані
Потім розвідник може візуалізувати змінні в наборі даних, щоб краще зрозуміти значення даних.
Наприклад, він міг створити таку гістограму, щоб візуалізувати загальну кількість хвилин, зіграних кожним гравцем:
Або він міг створити таку діаграму розсіювання, щоб візуалізувати зв’язок між зіграними хвилинами та набраними очками:
Кожен із цих типів діаграм може допомогти йому краще зрозуміти дані.
Крок 5. Використовуйте дані для створення моделі
Нарешті, після очищення даних розвідник може вирішити адаптувати певний тип прогнозної моделі.
Наприклад, він може відповідати моделі простої лінійної регресії та використовувати зіграні хвилини для прогнозування загальної кількості очок, набраних кожним гравцем.
Зібране рівняння регресії таке:
Бали = 8,7012 + 0,2717*(хвилини)
Потім розвідник може використати це рівняння, щоб передбачити кількість очок, які набере гравець на основі кількості зіграних хвилин. Наприклад, спортсмен, який грає 30 хвилин, повинен набрати 16,85 очок:
Бали = 8,7012 + 0,2717*(30) = 16,85
Додаткові ресурси
Чому статистика важлива?
Чому розмір вибірки важливий у статистиці?
Що таке спостереження в статистиці?
Що таке табличні дані в статистиці?