Згруповані дані

У цій статті пояснюється, що таке згруповані дані та як дані групуються. Крім того, ви знайдете розв’язану вправу, у якій дані згруповані за інтервалами.

Що таке згруповані дані?

У статистиці груповані дані — це дані, згруповані в інтервали. Іншими словами, згруповані дані — це дані, зібрані через рівні проміжки часу, щоб їх можна було вивчати разом.

Отже, групуючи набір статистичних даних, він розділений на різні інтервали, так що кожна частина даних може належати лише до одного інтервалу.

Коротше кажучи, у статистиці кластеризація даних дозволяє аналізувати декілька даних разом, так що дані, згруповані в межах інтервалу, розглядаються як єдина частина даних. Крім того, об’єднання даних дуже корисно, коли вибірка дуже велика.

Приклад згрупованих даних

Дивлячись на визначення згрупованих даних, нижче наведено конкретний приклад того, як набір даних групується в різні інтервали.

  • Було виміряно розмір вибірки з 50 різних людей, і всі значення були записані в наступну таблицю даних. Згрупуйте набір даних у інтервали, а потім побудуйте дані на графіку.

По-перше, нам потрібно розділити дані на інтервали. Для цього існує багато методів, але найбільш використовуваним є правило Стерджеса, оскільки воно дозволяє розрахувати ідеальну кількість інтервалів:

\begin{array}{l}c=1+\log_2(N)\\[2ex]c=1+\log_2(50)\\[2ex]c=1+5,64\\[2ex]c=6,64\\[2ex]c\approx 7\end{array}

Тому нам потрібно розділити дані на сім різних інтервалів. Тепер нам потрібно знати ширину, яку повинен мати кожен інтервал. Для цього просто розділіть максимальне значення мінус мінімальне значення на загальну кількість інтервалів:

a=\cfrac{\text{valor m\'aximo}-\text{valor m\'inimo}}{c}=\cfrac{205-145}{7}=8,57\approx 9

Коротше кажучи, повинно бути 7 інтервалів з амплітудою 9, тому інтервали, обчислені згідно з правилом Стерджеса, такі:

[145,154)

[154,163)

[163,172)

[172,181)

[181,190)

[190,199)

[199,208)

Після того, як ми обчислили інтервали, ми підраховуємо, скільки разів частина даних з’являється в кожному інтервалі, і створюємо таблицю із згрупованими даними:

Майте на увазі, що на основі згрупованих даних можна обчислити ще більше типів частот (відносна частота, кумулятивна частота тощо). Щоб побачити, як створити повну таблицю частот із згрупованими даними, натисніть тут:

Нарешті, з таблиці з частотою кожного інтервалу ми можемо побудувати дані, згруповані в гістограму.

Гістограма правила Стерджеса, статистика

Згруповані та незгруповані дані

Незгруповані дані – це дані, які не розділені на інтервали, а кожне значення вивчається окремо.

Дотримуючись наведеного вище прикладу, якби ми не згрупували дані, нам довелося б знайти частоту кожного значення. Тобто ми повинні були підрахувати, у скільки разів значення 158, 165, 174 і т.д. повторюється. Однак у цьому випадку було краще згрупувати дані за інтервалами, тому що ми мали великий обсяг даних і, крім того, багато значень були схожі.

Тому під час статистичного дослідження перед проведенням розрахунків важливо вирішити, чи слід групувати дані за інтервалами чи ні, оскільки це обумовить подальше дослідження.

Коли слід консолідувати дані?

Загалом дані слід групувати в інтервали, коли змінна неперервна. Якщо змінна неперервна, ми зазвичай маємо багато значень, і вони дуже близькі одне до одного, тому їх можна згрупувати в інтервали для спрощення дослідження.

Логічно, навіть якщо змінна не безперервна, якщо у нас багато даних, її також можна згрупувати в інтервали, що полегшує статистичний аналіз. Але загалом критерієм для групування даних є тип змінної: якщо змінна неперервна, дані зазвичай розділяються на інтервали.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *