Socs: полезная аббревиатура для описания дистрибутивов.
В статистике мы часто хотим понять, как распределяется набор данных. В частности, есть четыре вещи, которые полезно знать о дистрибутиве:
1 . Форма
- Является ли распределение симметричным или смещенным в одну сторону?
- Является ли распределение унимодальным (один пик) или бимодальным (два пика)?
2. Выбросы
- Есть ли в распределении какие-либо выбросы?
3. Центр
- Что такое среднее значение, медиана и способ распределения?
4. Распространение
- Каковы диапазон, межквартильный размах, стандартное отклонение и дисперсия распределения?
SOCS — это полезная аббревиатура, которую мы можем использовать, чтобы запомнить эти четыре вещи. Это означает «форма, выбросы, центр, распространение».
Давайте рассмотрим простой пример того, как использовать SOCS для описания распределения.
Пример: как использовать SOCS для описания распределения
Допустим, у нас есть следующий набор данных, показывающий высоту выборки из 20 различных растений.
Вот как мы можем использовать SOCS для описания такого распределения значений данных.
Форма
Во-первых, мы хотим описать форму распределения.
Полезный способ визуализировать форму распределения — создать гистограмму, которая отображает частоты каждого значения в наборе данных:
Является ли распределение симметричным или смещенным в одну сторону? Из гистограммы видно, что распределение примерно симметрично. Другими словами, ценности не смещены ни в ту, ни в другую сторону.
Является ли распределение унимодальным (один пик) или бимодальным (два пика)? Распределение унимодальное. Он имеет пик при значении «7».
Выбросы
Далее мы хотим определить, есть ли в наборе данных какие-либо выбросы. По гистограмме мы можем визуально проверить распределение и увидеть, что 22 потенциально является выбросом:
Распространенным способом формального определения выброса является любое значение, которое в 1,5 раза превышает межквартильный диапазон выше третьего квартиля или ниже первого квартиля.
Используя калькулятор межквартильного диапазона, мы можем ввести 20 значений необработанных данных и увидеть, что третий квартиль равен 9 , межквартильный диапазон равен 3 , и, следовательно, любое значение, превышающее 9 + (1,5*3) = 13,5 , является выбросом, по определению.
Поскольку 22 больше 13,5, мы можем объявить 22 выбросом.
Центр
Затем мы хотим описать, где находится центр распределения. Три общих показателя центральной тенденции , которые мы можем использовать, — это среднее значение, медиана и мода.
Среднее: это среднее значение распределения. Мы находим это, сложив все отдельные значения и затем разделив на общее количество значений:
Среднее = (8+4+6+7+7+6+7+8+6+11+8+22+10+9+9+7+5+7+6+4) / 20 = 7,85
Медиана: это «среднее» значение распределения. Мы находим это, упорядочивая все значения от наименьшего к наибольшему, а затем определяя медианное значение. Оказывается, 7 .
4, 4, 5, 6, 6, 6, 6, 7, 7, 7, 7 , 7, 8 , 8, 8, 9, 9, 10, 11, 22
Режим: это значение, которое появляется чаще всего. Оказывается, 7 .
Распространение
Далее мы хотим описать распределение значений в дистрибутиве. Четыре общих меры дисперсии, которые мы можем использовать, — это диапазон, межкварильный диапазон, стандартное отклонение и дисперсия.
Диапазон: это разница между наибольшим и наименьшим значением в наборе данных. Получается 22 – 4 = 18 .
Межквартильный диапазон: измеряет ширину средних 50% значений данных. Введя 20 значений необработанных данных в калькулятор межквартильного диапазона, мы видим, что это равно 3 .
Стандартное отклонение: это мера среднего распределения значений данных. Введя 20 значений необработанных данных в калькулятор дисперсии и стандартного отклонения, мы видим, что стандартное отклонение равно 3,69 .
Дисперсия: это просто стандартное отклонение, возведенное в квадрат. Это равно 3,69 2 = 13,63 .
Заключение
Используя SOCS в качестве ориентира, мы смогли описать распределение высоты растений следующим образом:
- Распределение было унимодальным и симметричным, то есть имело только один пик и не было перекошено в ту или иную сторону.
- В распределении был один выброс: 22.
- Распределение имело среднее значение 7,85, медиану 7 и моду 7.
- Распределение имело диапазон 18, интерквартильный размах 3, стандартное отклонение 3,69 и дисперсию 13,63.
Обратите внимание, что мы можем использовать SOCS для описания любого распределения, что является для нас полезным способом полностью понять форму распределения, есть ли у него выбросы, где примерно находится центр и как распределять значения данных. являются.