Простое объяснение того, как интерпретировать дисперсию
В статистике мы часто хотим понять, насколько «разбросаны» значения в наборе данных. Для измерения этого мы часто используем следующие меры дисперсии:
- Диапазон: разница между наибольшим и наименьшим значениями в наборе данных.
- Межквартильный диапазон: разница между первым квартилем и третьим квартилем набора данных (квартили — это просто значения, которые делят набор данных на четыре равные части).
- Стандартное отклонение: способ измерения типичного расстояния между значениями и средним значением.
- Дисперсия: квадрат стандартного отклонения.
Из этих четырех показателей дисперсию , как правило, труднее всего понять интуитивно. Целью этой статьи является дать простое объяснение разницы.
Понимание стандартного отклонения
Прежде чем мы сможем понять дисперсию, мы должны сначала понять стандартное отклонение , обычно обозначаемое σ .
Формула расчета стандартного отклонения:
σ = √(Σ (x i – µ) 2 / N)
где μ — среднее значение популяции, xi — i — й элемент популяции, N — размер популяции, а Σ — просто причудливый символ, означающий «сумма».
На практике вам редко придется вычислять стандартное отклонение вручную; вместо этого вы можете использовать статистическое программное обеспечение или калькулятор.
На самом базовом уровне стандартное отклонение говорит нам о распределении значений данных в наборе данных. Чтобы проиллюстрировать это, рассмотрим следующие три набора данных вместе с соответствующими стандартными отклонениями:
[5, 5, 5] стандартное отклонение = 0 (разброс отсутствует вообще)
[3, 5, 7] стандартное отклонение = 1,63 (некоторые отклонения)
[1, 5, 99] стандартное отклонение = 45,28 (большой разброс)
Термин «стандартное отклонение» можно понять, взглянув на два слова, которые его составляют:
- «отклонение» – имеется в виду расстояние от среднего значения.
- «стандартный» – это относится к «стандартному» или «типичному» расстоянию между значением и средним значением.
Как только вы поймете стандартное отклонение, вам будет гораздо легче понять дисперсию.
Понимание разрыва
Дисперсия, обычно обозначаемая σ2 , представляет собой просто квадрат стандартного отклонения. Формула для нахождения дисперсии набора данных:
σ 2 = Σ (x i – µ) 2 / N
где μ — среднее значение популяции, xi — i — й элемент популяции, N — размер популяции, а Σ — просто причудливый символ, означающий «сумма».
Итак, если стандартное отклонение набора данных равно 8, то вариация будет 8 2 = 64.
Или, если стандартное отклонение набора данных равно 10, тогда отклонение будет 10 2 = 100.
Или, если стандартное отклонение набора данных равно 3,7, то отклонение будет 3,7 2 = 13,69.
Чем более разбросаны значения в наборе данных, тем выше дисперсия. Чтобы проиллюстрировать это, рассмотрим следующие три набора данных вместе с соответствующими дисперсиями:
[5, 5, 5] дисперсия = 0 (совсем нет разброса)
[3, 5, 7] дисперсия = 2,67 (некоторые отклонения)
[1, 5, 99] дисперсия = 2050,67 (большой разброс)
Когда вы будете использовать дисперсию вместо стандартного отклонения?
Прочитав приведенные выше объяснения стандартного отклонения и дисперсии, вы можете задаться вопросом, когда вы когда-нибудь будете использовать дисперсию вместо стандартного отклонения для описания набора данных.
В конце концов, стандартное отклонение сообщает нам среднее расстояние между значением и средним значением, а дисперсия сообщает нам квадрат этого значения. Казалось бы, стандартное отклонение гораздо легче понять и интерпретировать.
В действительности вы почти всегда будете использовать стандартное отклонение для описания распределения значений в наборе данных.
Однако дисперсия может быть полезна при использовании такого метода, как дисперсионный анализ или регрессия , и попытке объяснить общую дисперсию модели из-за определенных факторов.
Например, вы можете захотеть понять, какую разницу в результатах тестов можно объяснить IQ и какую разницу можно объяснить количеством учебных часов.
Если 36% вариаций обусловлено IQ, а 64% — часами учебы, это легко понять. Но если мы используем стандартные отклонения 6 и 8, это будет гораздо менее интуитивно понятно и не имеет особого смысла в контексте задачи.
Другой случай, когда лучше использовать дисперсию, а не стандартное отклонение, — это когда вы выполняете теоретическую статистическую работу.
В этом случае гораздо проще использовать дисперсию при расчете, поскольку не нужно использовать знак квадратного корня.
Дополнительные ресурсы
Следующие руководства предоставляют дополнительную информацию о дисперсии:
Выборочная дисперсия и популяционная дисперсия: в чем разница?
Как рассчитать дисперсию выборки и совокупности в Excel