Простое объяснение того, как интерпретировать дисперсию


В статистике мы часто хотим понять, насколько «разбросаны» значения в наборе данных. Для измерения этого мы часто используем следующие меры дисперсии:

  • Диапазон: разница между наибольшим и наименьшим значениями в наборе данных.
  • Межквартильный диапазон: разница между первым квартилем и третьим квартилем набора данных (квартили — это просто значения, которые делят набор данных на четыре равные части).
  • Стандартное отклонение: способ измерения типичного расстояния между значениями и средним значением.
  • Дисперсия: квадрат стандартного отклонения.

Из этих четырех показателей дисперсию , как правило, труднее всего понять интуитивно. Целью этой статьи является дать простое объяснение разницы.

Понимание стандартного отклонения

Прежде чем мы сможем понять дисперсию, мы должны сначала понять стандартное отклонение , обычно обозначаемое σ .

Формула расчета стандартного отклонения:

σ = √(Σ (x i – µ) 2 / N)

где μ — среднее значение популяции, xi — i й элемент популяции, N — размер популяции, а Σ — просто причудливый символ, означающий «сумма».

На практике вам редко придется вычислять стандартное отклонение вручную; вместо этого вы можете использовать статистическое программное обеспечение или калькулятор.

На самом базовом уровне стандартное отклонение говорит нам о распределении значений данных в наборе данных. Чтобы проиллюстрировать это, рассмотрим следующие три набора данных вместе с соответствующими стандартными отклонениями:

[5, 5, 5] стандартное отклонение = 0 (разброс отсутствует вообще)

[3, 5, 7] стандартное отклонение = 1,63 (некоторые отклонения)

[1, 5, 99] стандартное отклонение = 45,28 (большой разброс)

Термин «стандартное отклонение» можно понять, взглянув на два слова, которые его составляют:

  • «отклонение» – имеется в виду расстояние от среднего значения.
  • «стандартный» – это относится к «стандартному» или «типичному» расстоянию между значением и средним значением.

Как только вы поймете стандартное отклонение, вам будет гораздо легче понять дисперсию.

Понимание разрыва

Дисперсия, обычно обозначаемая σ2 , представляет собой просто квадрат стандартного отклонения. Формула для нахождения дисперсии набора данных:

σ 2 = Σ (x i – µ) 2 / N

где μ — среднее значение популяции, xi — i й элемент популяции, N — размер популяции, а Σ — просто причудливый символ, означающий «сумма».

Итак, если стандартное отклонение набора данных равно 8, то вариация будет 8 2 = 64.

Или, если стандартное отклонение набора данных равно 10, тогда отклонение будет 10 2 = 100.

Или, если стандартное отклонение набора данных равно 3,7, то отклонение будет 3,7 2 = 13,69.

Чем более разбросаны значения в наборе данных, тем выше дисперсия. Чтобы проиллюстрировать это, рассмотрим следующие три набора данных вместе с соответствующими дисперсиями:

[5, 5, 5] дисперсия = 0 (совсем нет разброса)

[3, 5, 7] дисперсия = 2,67 (некоторые отклонения)

[1, 5, 99] дисперсия = 2050,67 (большой разброс)

Когда вы будете использовать дисперсию вместо стандартного отклонения?

Прочитав приведенные выше объяснения стандартного отклонения и дисперсии, вы можете задаться вопросом, когда вы когда-нибудь будете использовать дисперсию вместо стандартного отклонения для описания набора данных.

В конце концов, стандартное отклонение сообщает нам среднее расстояние между значением и средним значением, а дисперсия сообщает нам квадрат этого значения. Казалось бы, стандартное отклонение гораздо легче понять и интерпретировать.

В действительности вы почти всегда будете использовать стандартное отклонение для описания распределения значений в наборе данных.

Однако дисперсия может быть полезна при использовании такого метода, как дисперсионный анализ или регрессия , и попытке объяснить общую дисперсию модели из-за определенных факторов.

Например, вы можете захотеть понять, какую разницу в результатах тестов можно объяснить IQ и какую разницу можно объяснить количеством учебных часов.

Если 36% вариаций обусловлено IQ, а 64% — часами учебы, это легко понять. Но если мы используем стандартные отклонения 6 и 8, это будет гораздо менее интуитивно понятно и не имеет особого смысла в контексте задачи.

Другой случай, когда лучше использовать дисперсию, а не стандартное отклонение, — это когда вы выполняете теоретическую статистическую работу.

В этом случае гораздо проще использовать дисперсию при расчете, поскольку не нужно использовать знак квадратного корня.

Дополнительные ресурсы

Следующие руководства предоставляют дополнительную информацию о дисперсии:

Выборочная дисперсия и популяционная дисперсия: в чем разница?
Как рассчитать дисперсию выборки и совокупности в Excel

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *