Socs: полезная аббревиатура для описания дистрибутивов.


В статистике мы часто хотим понять, как распределяется набор данных. В частности, есть четыре вещи, которые полезно знать о дистрибутиве:

1 . Форма

  • Является ли распределение симметричным или смещенным в одну сторону?
  • Является ли распределение унимодальным (один пик) или бимодальным (два пика)?

2. Выбросы

  • Есть ли в распределении какие-либо выбросы?

3. Центр

  • Что такое среднее значение, медиана и способ распределения?

4. Распространение

  • Каковы диапазон, межквартильный размах, стандартное отклонение и дисперсия распределения?

SOCS — это полезная аббревиатура, которую мы можем использовать, чтобы запомнить эти четыре вещи. Это означает «форма, выбросы, центр, распространение».

Давайте рассмотрим простой пример того, как использовать SOCS для описания распределения.

Пример: как использовать SOCS для описания распределения

Допустим, у нас есть следующий набор данных, показывающий высоту выборки из 20 различных растений.

Вот как мы можем использовать SOCS для описания такого распределения значений данных.

Форма

Во-первых, мы хотим описать форму распределения.

Полезный способ визуализировать форму распределения — создать гистограмму, которая отображает частоты каждого значения в наборе данных:

Является ли распределение симметричным или смещенным в одну сторону?   Из гистограммы видно, что распределение примерно симметрично. Другими словами, ценности не смещены ни в ту, ни в другую сторону.

Является ли распределение унимодальным (один пик) или бимодальным (два пика)? Распределение унимодальное. Он имеет пик при значении «7».

Выбросы

Далее мы хотим определить, есть ли в наборе данных какие-либо выбросы. По гистограмме мы можем визуально проверить распределение и увидеть, что 22 потенциально является выбросом:

Пример гистограммы с использованием SOCS в статистике

Распространенным способом формального определения выброса является любое значение, которое в 1,5 раза превышает межквартильный диапазон выше третьего квартиля или ниже первого квартиля.

Используя калькулятор межквартильного диапазона, мы можем ввести 20 значений необработанных данных и увидеть, что третий квартиль равен 9 , межквартильный диапазон равен 3 , и, следовательно, любое значение, превышающее 9 + (1,5*3) = 13,5 , является выбросом, по определению.

Поскольку 22 больше 13,5, мы можем объявить 22 выбросом.

Центр

Затем мы хотим описать, где находится центр распределения. Три общих показателя центральной тенденции , которые мы можем использовать, — это среднее значение, медиана и мода.

Среднее: это среднее значение распределения. Мы находим это, сложив все отдельные значения и затем разделив на общее количество значений:

Среднее = (8+4+6+7+7+6+7+8+6+11+8+22+10+9+9+7+5+7+6+4) / 20 = 7,85

Медиана: это «среднее» значение распределения. Мы находим это, упорядочивая все значения от наименьшего к наибольшему, а затем определяя медианное значение. Оказывается, 7 .

4, 4, 5, 6, 6, 6, 6, 7, 7, 7, 7 , 7, 8 , 8, 8, 9, 9, 10, 11, 22

Режим: это значение, которое появляется чаще всего. Оказывается, 7 .

Распространение

Далее мы хотим описать распределение значений в дистрибутиве. Четыре общих меры дисперсии, которые мы можем использовать, — это диапазон, межкварильный диапазон, стандартное отклонение и дисперсия.

Диапазон: это разница между наибольшим и наименьшим значением в наборе данных. Получается 22 – 4 = 18 .

Межквартильный диапазон: измеряет ширину средних 50% значений данных. Введя 20 значений необработанных данных в калькулятор межквартильного диапазона, мы видим, что это равно 3 .

Стандартное отклонение: это мера среднего распределения значений данных. Введя 20 значений необработанных данных в калькулятор дисперсии и стандартного отклонения, мы видим, что стандартное отклонение равно 3,69 .

Дисперсия: это просто стандартное отклонение, возведенное в квадрат. Это равно 3,69 2 = 13,63 .

Заключение

Используя SOCS в качестве ориентира, мы смогли описать распределение высоты растений следующим образом:

  • Распределение было унимодальным и симметричным, то есть имело только один пик и не было перекошено в ту или иную сторону.
  • В распределении был один выброс: 22.
  • Распределение имело среднее значение 7,85, медиану 7 и моду 7.
  • Распределение имело диапазон 18, интерквартильный размах 3, стандартное отклонение 3,69 и дисперсию 13,63.

Обратите внимание, что мы можем использовать SOCS для описания любого распределения, что является для нас полезным способом полностью понять форму распределения, есть ли у него выбросы, где примерно находится центр и как распределять значения данных. являются.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *