Преимущества и недостатки использования стандартного отклонения


Стандартное отклонение набора данных — это способ измерения типичного отклонения отдельных значений от среднего значения.

Формула для расчета выборочного стандартного отклонения, обозначаемого s , выглядит следующим образом:

s = √ Σ(x i – x̄) 2 / (n – 1)

Золото:

  • Σ : Символ, означающий «сумма».
  • x i : i значение в наборе данных.
  • : Образец означает
  • n : Размер выборки

Есть два основных преимущества использования стандартного отклонения для описания распределения значений в наборе данных:

Преимущество №1: при расчете стандартного отклонения используются все наблюдения в наборе данных. В статистике мы обычно говорим, что хорошо иметь возможность использовать все наблюдения в наборе данных для выполнения вычислений, потому что мы используем всю возможную «информацию», доступную в наборе данных.

Преимущество №2: стандартное отклонение легко интерпретировать . Стандартное отклонение — это отдельное значение, которое дает нам хорошее представление о том, насколько далеко «типичное» наблюдение в наборе данных находится от среднего значения.

Однако использование стандартного отклонения имеет серьезный недостаток:

Недостаток №1: на стандартное отклонение могут влиять выбросы . Когда в наборе данных присутствуют экстремальные выбросы, это может привести к завышению значения стандартного отклонения и, таким образом, дать ложное представление о распределении значений в наборе данных.

Следующие примеры предоставляют дополнительную информацию о преимуществах и недостатках использования стандартного отклонения.

Преимущество № 1: стандартное отклонение использует все наблюдения.

Предположим, у нас есть следующий набор данных, который показывает распределение экзаменационных баллов учащихся в классе:

Рейтинги: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92.

Мы можем использовать калькулятор или статистическую программу, чтобы определить, что выборочное стандартное отклонение этого набора данных составляет 8,46.

Преимущество использования стандартного отклонения в этом примере заключается в том, что мы используем все возможные наблюдения в наборе данных, чтобы найти типичное «распределение» значений.

Напротив, мы могли бы использовать другую метрику, например межквартильный диапазон, для измерения распределения значений в этом наборе данных.

С помощью калькулятора мы можем определить, что межквартильный размах равен 17,5 . Это представляет собой разрыв между средними 50% значений в наборе данных.

Теперь предположим, что мы изменили самое низкое значение в наборе данных, чтобы оно было намного ниже:

Рейтинги: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92.

С помощью калькулятора мы можем определить, что стандартное отклонение выборки составляет 18,37 .

Однако межквартильный размах по-прежнему составляет 17,5, поскольку ни одно из средних 50% значений не затронуто.

Это показывает, что стандартное отклонение выборки учитывает все наблюдения в наборе данных при расчете, в отличие от других мер дисперсии.

Преимущество № 2: стандартное отклонение легко интерпретировать.

Вспомним следующий набор данных, показывающий распределение экзаменационных баллов учащихся в классе:

Рейтинги: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92.

Мы использовали калькулятор и обнаружили, что выборочное стандартное отклонение этого набора данных составило 8,46 .

Это легко интерпретировать, поскольку это просто означает, что отклонение «типичного» экзаменационного балла составляет примерно 8,46 от среднего экзаменационного балла.

С другой стороны, другие меры дисперсии интерпретировать не так просто.

Например, коэффициент вариации — это еще одна мера дисперсии, которая представляет собой отношение стандартного отклонения к выборочному среднему значению.

Коэффициент вариации: s/x̄

В этом примере средний балл экзамена составляет 81,46, поэтому коэффициент вариации рассчитывается следующим образом: 8,46/81,46 = 0,104 .

Это представляет собой отношение выборочного стандартного отклонения к выборочному среднему значению, которое может быть полезно для сравнения распределения значений по нескольким наборам данных, но его не очень просто интерпретировать как показатель сам по себе.

Недостаток № 1: на стандартное отклонение могут влиять выбросы.

Предположим, у нас есть следующий набор данных, содержащий информацию о зарплате 10 сотрудников (в тысячах долларов) в компании:

Заработная плата: 44, 48, 57, 68, 70, 71, 73, 79, 84, 94.

Выборочное стандартное отклонение заработной платы составляет примерно 15,57 .

Теперь предположим, что у нас есть точно такой же набор данных, но самая высокая зарплата намного выше:

Заработная плата: 44, 48, 57, 68, 70, 71, 73, 79, 84, 895.

Выборочное стандартное отклонение зарплат в этом наборе данных составляет примерно 262,47 .

Включение всего одного крайнего выброса сильно влияет на стандартное отклонение, и теперь оно дает ошибочное представление о «типичном» распределении заработной платы.

Примечание . Если в наборе данных присутствуют выбросы, межквартильный размах может обеспечить лучшую меру дисперсии, поскольку на него не влияют выбросы.

Дополнительные ресурсы

Следующие руководства предоставляют дополнительную информацию об использовании стандартного отклонения в статистике:

Межквартильный размах и стандартное отклонение: разница
Коэффициент вариации против стандартного отклонения: разница
Население против. Пример стандартного отклонения: когда использовать каждое из них

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *