平均値と平均値を使用する場合中央値: 例付き


データセットの平均は、データセットの平均値を表します。次のように計算されます。

平均 = Σx i / n

金:

  • Σ: 「和」を意味する記号
  • x i :データセット内の i番目の観測値
  • n:データセット内の観測値の総数

中央値は、データセットの中央値を表します。これは、データセット内のすべての観測値を最小から最大の順に並べ、中央値を特定することによって計算されます。

たとえば、11 個の観測値を含む次のデータセットがあるとします。

データセット: 3、4、4、6、7、8、12、13、15、16、17

データセットの平均は次のように計算されます。

平均 = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9.54

データセットの中央値は中央の値であり、 8 であることがわかります。

3、4、4、6、7、8、12、13、15、16、17

データセットの中心がどこにあるかの平均および中央値の推定値。ただし、データの性質によっては、データセットの中心を説明するのに平均値または中央値の方が役立つ場合があります。

平均を使用する場合

分布が基本的に対称であり、外れ値がない場合は、平均を使用してデータセットの中心を記述するのが最善です。

たとえば、特定の都市の住民の給与を示す次の分布があるとします。

この分布はかなり対称的であり (中央で分割すると、それぞれの半分がほぼ均等に見える)、外れ値がないため、平均を使用してこのデータ セットの中心を説明できます。

平均は 63,000 ドルであることがわかり、これは分布のほぼ中心に位置します。

中央値を使用する場合

分布が歪んでいる場合、または外れ値がある場合は、中央値を使用するのが最適です。

歪んだデータ:

分布が歪んでいる場合、中央値は平均値よりも分布の中心をより正確に表します。

たとえば、特定の都市の住民の給与の次の分布を考えてみましょう。

中央値は、平均よりも居住者の「典型的な」給与をよりよく反映しています。これは、分布の裾の値が高いと、平均が中心から離れて長い裾に向かって押し出される傾向があるためです。

この例では、平均値は典型的な個人の年間収入が約 47,000 ドルであることを示していますが、中央値は典型的な個人の年間収入がわずか約 32,000 ドルであることを示しており、これは典型的な個人をよりよく表しています。

異常値:

中央値は、データ内に外れ値がある場合に、分布の中心位置をより適切に捕捉するのにも役立ちます。たとえば、特定の通りにある住宅の面積を示す次のグラフについて考えてみましょう。

平均と中央値をいつ使用するか

平均値は少数の非常に大きな住宅に大きく影響されますが、中央値は影響を受けません。したがって、中央値は、平均よりも、その通りにある家の「典型的な」平方フィートをうまく捉えています。

まとめ

要約すれば:

  • 平均と中央値は、データセットの「中心」がどこにあるのかを説明するために使用できます。
  • データ値の分布が対称的で、明確な外れ値がない場合は、平均を使用するのが最適です。
  • データ値の分布が歪んでいる場合、または明らかな外れ値がある場合は、中央値を使用するのが最善です。

追加リソース

外れ値は平均値にどのような影響を与えるのでしょうか?
ヒストグラムの平均と中央値を推定する方法
茎と葉のプロットの平均と中央値を見つける方法

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です