統計で平均を使用することの長所と短所
データセットの平均は、データセットの平均値を表します。
次のように計算されます。
平均 = Σx i / n
金:
- Σ: 「和」を意味する記号
- x i :データセット内の i番目の観測値
- n:データセット内の観測値の総数
データセットの「中心」または「平均」を表すために平均を使用することには、主に 2 つの利点があります。
利点 #1: 平均では、計算にデータセットからのすべての観測値が使用されます。統計では、データセット内の利用可能なすべての情報を使用していると言われているため、これは一般に良いことです。
利点 #2: 平均値の計算と解釈が簡単です。平均は、すべての観測値の合計を観測値の総数で割ったものです。計算は (手動でも) 簡単で、解釈も簡単です。
ただし、平均を使用してデータセットを要約すると、潜在的な欠点が 2 つあります。
欠点 #1: 平均は外れ値の影響を受けます。データセットに極端な外れ値がある場合、平均値に影響を与え、データセットの中心の信頼性の低い測定値となります。
欠点 #2: データセットが偏っていると、平均値が誤解を招く可能性があります。データ セットが左または右に傾いている場合、平均化はデータ セットの中心を測定する誤解を招く方法になる可能性があります。
次の例は、実際のこれらの利点と欠点を示しています。
例 1: 平均値を使用する利点
特定の都市の住民の給与を示す次のヒストグラムがあるとします。
この分布は一般に対称的であり (中央で分割すると、それぞれの半分がほぼ均等に見える)、外れ値がないため、平均値はこのデータ セットの中心を説明するのに便利な方法です。
平均は 63,000 ドルであることがわかり、これは分布のほぼ中心に位置します。
この特定の例では、平均化の両方の利点を活用できました。
利点 #1: 平均では、計算にデータセットからのすべての観測値が使用されます。
分布は基本的に対称であり、極端な外れ値がなかったため、入手可能なすべての給与を使用して平均を計算することができ、これにより、この特定の都市の「平均」または「典型的な」給与についての良いアイデアが得られました。
利点 #2: 平均値の計算と解釈が簡単です。平均給与 63,000 ドルがこの都市の個人の「平均」給与を表すことは容易に理解できます。
これよりはるかに多く稼ぐ人もいれば、はるかに少ない人もいますが、この平均値からこの都市の「典型的な」給与についての良いアイデアが得られます。
例 2: 平均値を使用することの欠点
非常に偏った給与分布があり、平均給与と中央値の両方を計算することにしたとします。
分布の裾の値が高くなると、平均が中心から遠ざかり、長い裾に向かって移動します。
この例では、平均値は典型的な個人の年間収入が約 47,000 ドルであることを示していますが、中央値は典型的な個人の年間収入がわずか約 32,000 ドルであることを示しており、これは典型的な個人をよりよく表しています。
この例では、分布が歪んでいるため、平均値はこの分布の「典型的な」値または「平均」値をあまり要約していません。
または、特定の通りの住宅の面積に関する情報を含む別の分布があり、データセットの平均と中央値の両方を計算することにしたとします。
平均値は少数の非常に大きな住宅の影響を受けるため、より高い値がとられます。
これにより、平均平方フィートの値が誤解を招き、その通りにある住宅の「典型的な」平方フィートの尺度が不十分になります。
追加リソース
次のチュートリアルでは、統計における平均と中央値に関する追加情報を提供します。
外れ値は平均値にどのような影響を与えるのでしょうか?
ヒストグラムの平均と中央値を推定する方法
茎と葉のプロットの平均と中央値を見つける方法