Довгі чи широкі дані: у чому різниця?
Набір даних можна записати в двох різних форматах: широкому та довгому .
Широкий формат містить значення, які не повторюються в першому стовпці.
Довгий формат містить значення, які повторюються в першому стовпці.
Наприклад, розглянемо наступні два набори даних, які містять однакові дані в різних форматах:
Зверніть увагу, що в розширеному наборі даних кожне значення в першому стовпці є унікальним.
Навпаки, у довгому наборі даних значення в першому стовпці повторюються.
Обидва набори даних містять однакову інформацію про команду, але її просто виражено в різних форматах.
Коли використовувати широкі чи довгі дані
Залежно від того, що ви хочете зробити зі своїми даними, може бути доцільніше представити їх у широкому або довгому форматі.
Коли використовувати великий формат
Як правило, якщо ви аналізуєте дані, ви зазвичай використовуєте широкий формат даних.
Наприклад, якщо ви хочете знати середню кількість очок, передач і підбирань, набраних командою, часто простіше мати дані у великому форматі:
Більшість наборів даних, з якими ви стикаєтеся в реальному світі, також буде збережено в широкому форматі, оскільки нашому мозку це легше інтерпретувати.
Наприклад, у наведеному вище форматі легко прочитати значення очок, передач і підбирань для кожної команди в одному рядку.
Коли використовувати довгий формат
Як правило, якщо ви переглядаєте кілька змінних на графіку за допомогою статистичного програмного забезпечення, такого як R , вам зазвичай потрібно перетворити дані у довгий формат, щоб програмне забезпечення могло створити графік.
Щоб отримати реальні приклади, ознайомтеся з цими навчальними посібниками R, де дані мають бути у довгому форматі для створення певних типів графіків:
- Як побудувати кілька графіків щільності в R
- Як побудувати кілька стовпців у R
- Як створити теплову карту в R
Іноді вам може знадобитися переформатувати дані в інший формат, якщо ви також використовуєте Python .
У наступних посібниках пояснюється, як змінити форму кадрів даних у Python:
- Як змінити форму даних із довгих на широкі в Python
- Як змінити форму даних із широких на довгі в Python
Додаткові ресурси
Наступні посібники надають інформацію про інші загальновживані статистичні терміни:
Що таке спостереження в статистиці?
Що таке коваріата в статистиці?
Що таке залишки в статистиці?