Преимущества и недостатки использования стандартного отклонения
Стандартное отклонение набора данных — это способ измерения типичного отклонения отдельных значений от среднего значения.
Формула для расчета выборочного стандартного отклонения, обозначаемого s , выглядит следующим образом:
s = √ Σ(x i – x̄) 2 / (n – 1)
Золото:
- Σ : Символ, означающий «сумма».
- x i : i -е значение в наборе данных.
- x̄ : Образец означает
- n : Размер выборки
Есть два основных преимущества использования стандартного отклонения для описания распределения значений в наборе данных:
Преимущество №1: при расчете стандартного отклонения используются все наблюдения в наборе данных. В статистике мы обычно говорим, что хорошо иметь возможность использовать все наблюдения в наборе данных для выполнения вычислений, потому что мы используем всю возможную «информацию», доступную в наборе данных.
Преимущество №2: стандартное отклонение легко интерпретировать . Стандартное отклонение — это отдельное значение, которое дает нам хорошее представление о том, насколько далеко «типичное» наблюдение в наборе данных находится от среднего значения.
Однако использование стандартного отклонения имеет серьезный недостаток:
Недостаток №1: на стандартное отклонение могут влиять выбросы . Когда в наборе данных присутствуют экстремальные выбросы, это может привести к завышению значения стандартного отклонения и, таким образом, дать ложное представление о распределении значений в наборе данных.
Следующие примеры предоставляют дополнительную информацию о преимуществах и недостатках использования стандартного отклонения.
Преимущество № 1: стандартное отклонение использует все наблюдения.
Предположим, у нас есть следующий набор данных, который показывает распределение экзаменационных баллов учащихся в классе:
Рейтинги: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92.
Мы можем использовать калькулятор или статистическую программу, чтобы определить, что выборочное стандартное отклонение этого набора данных составляет 8,46.
Преимущество использования стандартного отклонения в этом примере заключается в том, что мы используем все возможные наблюдения в наборе данных, чтобы найти типичное «распределение» значений.
Напротив, мы могли бы использовать другую метрику, например межквартильный диапазон, для измерения распределения значений в этом наборе данных.
С помощью калькулятора мы можем определить, что межквартильный размах равен 17,5 . Это представляет собой разрыв между средними 50% значений в наборе данных.
Теперь предположим, что мы изменили самое низкое значение в наборе данных, чтобы оно было намного ниже:
Рейтинги: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92.
С помощью калькулятора мы можем определить, что стандартное отклонение выборки составляет 18,37 .
Однако межквартильный размах по-прежнему составляет 17,5, поскольку ни одно из средних 50% значений не затронуто.
Это показывает, что стандартное отклонение выборки учитывает все наблюдения в наборе данных при расчете, в отличие от других мер дисперсии.
Преимущество № 2: стандартное отклонение легко интерпретировать.
Вспомним следующий набор данных, показывающий распределение экзаменационных баллов учащихся в классе:
Рейтинги: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92.
Мы использовали калькулятор и обнаружили, что выборочное стандартное отклонение этого набора данных составило 8,46 .
Это легко интерпретировать, поскольку это просто означает, что отклонение «типичного» экзаменационного балла составляет примерно 8,46 от среднего экзаменационного балла.
С другой стороны, другие меры дисперсии интерпретировать не так просто.
Например, коэффициент вариации — это еще одна мера дисперсии, которая представляет собой отношение стандартного отклонения к выборочному среднему значению.
Коэффициент вариации: s/x̄
В этом примере средний балл экзамена составляет 81,46, поэтому коэффициент вариации рассчитывается следующим образом: 8,46/81,46 = 0,104 .
Это представляет собой отношение выборочного стандартного отклонения к выборочному среднему значению, которое может быть полезно для сравнения распределения значений по нескольким наборам данных, но его не очень просто интерпретировать как показатель сам по себе.
Недостаток № 1: на стандартное отклонение могут влиять выбросы.
Предположим, у нас есть следующий набор данных, содержащий информацию о зарплате 10 сотрудников (в тысячах долларов) в компании:
Заработная плата: 44, 48, 57, 68, 70, 71, 73, 79, 84, 94.
Выборочное стандартное отклонение заработной платы составляет примерно 15,57 .
Теперь предположим, что у нас есть точно такой же набор данных, но самая высокая зарплата намного выше:
Заработная плата: 44, 48, 57, 68, 70, 71, 73, 79, 84, 895.
Выборочное стандартное отклонение зарплат в этом наборе данных составляет примерно 262,47 .
Включение всего одного крайнего выброса сильно влияет на стандартное отклонение, и теперь оно дает ошибочное представление о «типичном» распределении заработной платы.
Примечание . Если в наборе данных присутствуют выбросы, межквартильный размах может обеспечить лучшую меру дисперсии, поскольку на него не влияют выбросы.
Дополнительные ресурсы
Следующие руководства предоставляют дополнительную информацию об использовании стандартного отклонения в статистике:
Межквартильный размах и стандартное отклонение: разница
Коэффициент вариации против стандартного отклонения: разница
Население против. Пример стандартного отклонения: когда использовать каждое из них