分散の解釈方法についての簡単な説明
統計では、データセット内で値がどのように「広がっている」のかを理解したいことがよくあります。これを測定するために、多くの場合、次の分散尺度が使用されます。
- 範囲:データセット内の最大値と最小値の差。
- 四分位範囲:データセットの第 1 四分位と第 3 四分位の差 (四分位とは、単にデータ セットを 4 つの等しい部分に分割する値です)。
- 標準偏差:値と平均値の間の一般的な距離を測定する方法。
- 分散:標準偏差の二乗。
これら 4 つの尺度のうち、分散は直観的に理解するのが最も難しい傾向があります。この記事では、この差異について簡単に説明することを目的としています。
標準偏差を理解する
分散を理解する前に、通常σで表される標準偏差をまず理解する必要があります。
標準偏差の計算式は次のとおりです。
σ = √(Σ (x i – μ) 2 / N)
ここで、μ は母集団の平均、x iは母集団のi番目の要素、N は母集団のサイズ、Σ は「合計」を意味する単なる派手な記号です。
実際には、標準偏差を手動で計算する必要はほとんどありません。代わりに、統計ソフトウェアまたは計算機を使用できます。
最も基本的なレベルでは、標準偏差はデータセット内のデータ値の分布を示します。これを説明するために、次の 3 つのデータセットとそれらの対応する標準偏差を考慮してください。
[5, 5, 5] 標準偏差 = 0 (広がりがまったくない)
[3, 5, 7] 標準偏差 = 1.63 (多少の偏差あり)
[1, 5, 99] 標準偏差 = 45.28 (ばらつきが多い)
「標準偏差」という用語は、それを構成する 2 つの単語を見ると理解できます。
- 「偏差」 – これは平均からの距離を指します。
- 「標準」 – これは、値と平均の間の「標準」または「典型的な」距離を指します。
標準偏差を理解すると、分散を理解するのがはるかに簡単になります。
ギャップを理解する
通常σ2で表される分散は、単に標準偏差の 2 乗です。データセットの分散を求める公式は次のとおりです。
σ 2 = Σ (x i – μ) 2 / N
ここで、μ は母集団の平均、x iは母集団のi番目の要素、N は母集団のサイズ、Σ は「合計」を意味する単なる派手な記号です。
したがって、データセットの標準偏差が 8 の場合、変動は 8 2 = 64 になります。
または、データセットの標準偏差が 10 の場合、変動は 10 2 = 100 になります。
または、データセットの標準偏差が 3.7 の場合、変動は 3.7 2 = 13.69 になります。
データセット内で値が分散しているほど、分散は大きくなります。これを説明するために、次の 3 つのデータセットとそれらの対応する分散を考えてみましょう。
[5, 5, 5] 分散 = 0 (広がりがまったくない)
[3, 5, 7] 分散 = 2.67 (多少の偏差)
[1, 5, 99] 分散 = 2,050.67 (多くのスプレッド)
標準偏差の代わりに分散を使用するのはどのような場合ですか?
標準偏差と分散に関する上記の説明を読んだ後、データセットを記述するために標準偏差の代わりに分散をいつ使用するのか疑問に思うかもしれません。
結局のところ、標準偏差は値と平均の間の平均距離を示し、分散はその値の 2 乗を示します。標準偏差の方が理解しやすく、解釈しやすいと思われます。
実際には、データセット内の値の分布を説明するために、ほとんどの場合標準偏差を使用します。
ただし、分散分析や回帰などの手法を使用し、特定の要因によるモデルの合計分散を説明しようとする場合、分散は役立つことがあります。
たとえば、テストのスコアのばらつきが IQ によってどの程度説明できるか、また、ばらつきが勉強時間によってどの程度説明できるかを理解したい場合があります。
変動の 36% が IQ によるもので、64% が学習時間によるものであるとすれば、これは容易に理解できます。しかし、標準偏差 6 と 8 を使用すると、直感的ではなくなり、問題の文脈ではあまり意味がありません。
標準偏差ではなく分散を使用した方がよいもう 1 つのケースは、理論的な統計作業を行う場合です。
この場合、平方根記号を使用する必要がないため、計算時に分散を使用する方がはるかに簡単です。
追加リソース
次のチュートリアルでは、差異に関する追加情報を提供します。