標準偏差を使用する利点と欠点
データセットの標準偏差は、平均値からの個々の値の典型的な偏差を測定する方法です。
標本の標準偏差を計算する式はsで示され、次のとおりです。
s = √ Σ(x i – x̄) 2 / (n – 1)
金:
- Σ :「和」を意味する記号
- x i : データセット内の i番目の値
- x̄ : サンプルの意味
- n : サンプルサイズ
標準偏差を使用してデータセット内の値の分布を記述することには、主に 2 つの利点があります。
利点 #1: 標準偏差は、計算にデータセット内のすべての観測値を使用します。統計学では、データ セット内で利用可能なすべての「情報」を使用するため、データ セット内のすべての観測値を使用して計算を実行できるのは良いことだと一般的に言われます。
利点 #2: 標準偏差の解釈が簡単です。標準偏差は、データセット内の「典型的な」観測値が平均値からどの程度離れているかを知るための単一の値です。
ただし、標準偏差の使用には大きな欠点があります。
欠点 #1: 標準偏差は外れ値の影響を受ける可能性があります。データセットに極端な外れ値が存在すると、標準偏差値が膨らみ、データセット内の値の分布について誤解を招く可能性があります。
次の例では、標準偏差を使用する利点と欠点について詳しく説明します。
利点 #1: 標準偏差はすべての観測値を使用します
クラス内の生徒の試験得点の分布を示す次のデータセットがあるとします。
レーティング: 68、70、71、75、78、82、83、83、85、90、91、91、92
計算機または統計ソフトウェアを使用すると、このデータセットのサンプル標準偏差が 8.46 であることがわかります。
この例で標準偏差を使用する利点は、データセット内のすべての可能な観測値を使用して、値の典型的な「分布」を見つけることができることです。
対照的に、四分位範囲などの別の指標を使用して、このデータセット内の値の分布を測定することもできます。
計算機を使用すると、四分位範囲が 17.5 であることがわかります。これは、データセット内の値の中央の 50% 間のギャップを表します。
ここで、データセット内の最小値をさらに低く変更するとします。
レーティング: 22、70、71、75、78、82、83、83、85、90、91、91、92
計算機を使用すると、標本の標準偏差が 18.37 であることがわかります。
ただし、中間の 50% の値は影響を受けないため、四分位範囲は 17.5 のままです。
これは、他の分散の尺度とは異なり、標本の標準偏差が計算時にデータセット内のすべての観測値を考慮していることを示しています。
利点 #2: 標準偏差の解釈が簡単
クラス内の生徒の試験得点の分布を示す次のデータセットを思い出してください。
レーティング: 68、70、71、75、78、82、83、83、85、90、91、91、92
計算機を使用して、このデータセットのサンプル標準偏差が8.46であることがわかりました。
これは、単に「典型的な」試験スコアの平均試験スコアからの偏差が約 8.46 であることを意味するため、解釈が簡単です。
一方、分散の他の尺度は解釈がそれほど単純ではありません。
たとえば、変動係数は、サンプル平均に対する標準偏差の比率を表す分散のもう 1 つの尺度です。
変動係数: s/x̄
この例では、試験の平均得点は 81.46 であるため、変動係数は次のように計算されます: 8.46 / 81.46 = 0.104 。
これはサンプル平均に対するサンプル標準偏差の比率を表し、複数のデータセットにわたる値の分布を比較するのに役立ちますが、それ自体を指標として解釈するのはあまり簡単ではありません。
欠点 #1: 標準偏差は外れ値の影響を受ける可能性があります
ある会社の従業員 10 人の給与情報 (数千ドル) を含む次のデータセットがあるとします。
給与: 44、48、57、68、70、71、73、79、84、94
給与のサンプル標準偏差は約15.57です。
ここで、まったく同じデータセットがあるが、最高給与がはるかに高いと仮定します。
給与: 44、48、57、68、70、71、73、79、84、895
このデータセットの給与のサンプル標準偏差は約262.47です。
たった 1 つの極端な外れ値を含めることで、標準偏差が大きな影響を受け、「典型的な」給与分布について誤解を招く考えが与えられてしまいます。
注: データセットに外れ値が存在する場合、四分位範囲は外れ値の影響を受けないため、分散をより適切に測定できます。
追加リソース
次のチュートリアルでは、統計における標準偏差の使用に関する追加情報を提供します。