Сгруппированные данные

В этой статье объясняется, что такое сгруппированные данные и как группируются данные. Дополнительно вас ждет решенное упражнение, в котором данные сгруппированы по интервалам.

Что такое сгруппированные данные?

В статистике группированные данные — это данные, сгруппированные по интервалам. Другими словами, сгруппированные данные — это данные, собираемые через регулярные промежутки времени, чтобы их можно было изучать вместе.

Итак, при группировке набора статистических данных он разбивается на разные интервалы, так что каждый фрагмент данных может принадлежать только одному интервалу.

Короче говоря, в статистике кластеризация данных позволяет совместно анализировать несколько данных, так что данные, сгруппированные в пределах интервала, обрабатываются как единый фрагмент данных. Кроме того, объединение данных очень полезно, когда выборка очень велика.

Пример сгруппированных данных

Ниже приведен конкретный пример того, как набор данных группируется в разные интервалы.

  • Был измерен размер выборки из 50 разных людей, и все значения были записаны в следующей таблице данных. Сгруппируйте набор данных по интервалам, а затем отобразите данные.

Во-первых, нам нужно разделить данные на интервалы. Для этого существует множество методов, но правило Стерджеса является наиболее используемым, поскольку позволяет вычислить идеальное количество интервалов:

\begin{array}{l}c=1+\log_2(N)\\[2ex]c=1+\log_2(50)\\[2ex]c=1+5,64\\[2ex]c=6,64\\[2ex]c\approx 7\end{array}

Поэтому нам нужно разделить данные на семь разных интервалов. Теперь нам нужно знать ширину, которую должен иметь каждый интервал. Для этого просто разделите максимальное значение минус минимальное значение на общее количество интервалов:

a=\cfrac{\text{valor m\'aximo}-\text{valor m\'inimo}}{c}=\cfrac{205-145}{7}=8,57\approx 9

Короче говоря, должно быть 7 интервалов амплитуды 9, поэтому интервалы, рассчитанные по правилу Стерджеса, следующие:

[145,154)

[154,163)

[163,172)

[172,181)

[181,190)

[190,199)

[199,208)

И как только мы вычислили интервалы, мы подсчитываем, сколько раз фрагмент данных появляется в каждом интервале, и создаем таблицу с сгруппированными данными:

Имейте в виду, что на основе сгруппированных данных можно рассчитать еще больше типов частот (относительная частота, совокупная частота и т. д.). Чтобы узнать, как создать полную таблицу частот с сгруппированными данными, нажмите здесь:

Наконец, из таблицы с частотой каждого интервала мы можем построить график данных, сгруппированных в гистограмму.

Гистограмма правила Стерджеса, статистика
См.: Как построить гистограмму

Сгруппированные и разгруппированные данные

Несгруппированные данные — это данные, которые не разделены на интервалы, а каждое значение изучается отдельно.

Следуя примеру, рассмотренному выше, если бы мы не сгруппировали данные, нам пришлось бы находить частоту каждого значения. То есть нам надо было посчитать, во сколько раз увеличится значение 158, 165, 174 и т.д. повторяется. Однако в данном случае лучше было сгруппировать данные по интервалам, поскольку у нас был большой объем данных и к тому же многие значения были схожими.

Поэтому при статистическом исследовании, прежде чем проводить расчеты, важно решить, следует ли группировать данные по интервалам или нет, так как от этого будет зависеть вся остальная часть исследования.

Когда следует консолидировать данные?

Как правило, данные следует группировать по интервалам, если переменная является непрерывной. Если переменная непрерывная, то обычно у нас много значений и они очень близки друг к другу, поэтому для упрощения исследования их можно сгруппировать по интервалам.

Логично, что даже если переменная не является непрерывной, если у нас много данных, ее также можно сгруппировать по интервалам, что упрощает статистический анализ. Но обычно критерием группировки данных является тип переменной: если переменная непрерывная, данные обычно разделяются на интервалы.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *