中央値

この記事では、データ セットの中央値とは何か、およびグループ化されていないデータとグループ化されたデータの中央値を見つける方法について説明します。さらに、最後にオンライン計算機を使用して、任意のデータ系列の中央値を計算できます。

中央値とは何ですか?

統計において、中央値は、すべてのデータを最小値から最大値の順に並べた中央の値です。言い換えれば、中央値は順序付けされたデータセットを 2 つの等しい部分に分割します。

中央値は、確率分布を記述するために使用される中心位置の尺度です。

中央値

👉以下の計算機を使用して、任意のデータセットの中央値を計算できます。

一般に、自己という言葉は中位の象徴として使われることが多いです。

他の中心位置の尺度には平均値と最頻値があります。以下ではそれらの違いを見ていきます。同様に、中心以外の位置の尺度は、四分位、五分位、十分位、百分位などです。

データセットの中央値は、第 2 四分位、第 5 十分位、および第 50 パーセンタイルと一致することに注意してください。

中央値の計算方法

中央値の計算は、データの総数が偶数か奇数かによって異なります。

  • データの総数が奇数の場合、中央値はデータの中央に位置する値になります。つまり、ソートされたデータの位置 (n+1)/2 にある値です。
  • Me=x_{\frac{n+1}{2}

  • データ ポイントの合計数が偶数の場合、中央値は中央に位置する 2 つのデータ ポイントの平均になります。つまり、順序付けされたデータの位置 n/2 および n/2+1 で見つかる値の算術平均です。
  • Me=\cfrac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}

n

サンプル内のデータ項目の総数です。

中央値の計算例

中央値がどのように計算されるかを理解できるように、以下に 2 つの実際の例をそれぞれのケースに 1 つずつ示します。まず、奇数のデータ セットの中央値が計算され、次に偶数のデータ セットを使用して中央値が計算されます。

奇数データの中央値

  • 次のデータの中央値を計算します: 3、4、1、6、7、4、8、2、8、4、5

計算を実行する前に最初に行う必要があるのは、データを順序付けることです。つまり、数値を最小値から最大値の順に並べます。

1 \ 2 \ 3 \ 4 \ 4 \ 4 \ 5 \ 6 \ 7 \ 8 \ 8

この場合、観測値は 11 個あるため、データの合計数は奇数になります。したがって、次の式を適用して中央値の位置を計算します。

\cfrac{n+1}{2}=\cfrac{11+1}{2}=6

したがって、中央値は 6 番目の位置にあるデータとなり、この場合は値 4 に対応します。

Me=x_6=4

偶数データの中央値

  • 次の観察結果の中央値はいくらですか? 2、6、2、8、9、4、7、11、4、13

中央値を取得するには、まずすべてのデータを昇順に並べ替える必要があります。

2 \ 2 \ 4 \ 4 \ 6 \ 7 \ 8 \ 9 \ 11 \ 13

この例は前の例とは異なります。今回は合計 10 個の観測値があり、これは偶数です。したがって、平均を求める手順は少し複雑になります。

まず中央値が見つかる 2 つの中心位置を計算する必要があります。このためには、次の 2 つの式を適用する必要があります。

\cfrac{n}{2}=\cfrac{10}{2}=5

\cfrac{n}{2}+1=\cfrac{10}{2}+1=6

したがって、中央値は 5 番目と 6 番目の位置の間にあり、それぞれ値 6 と 7 に対応します。具体的には、中央値は上記の値の算術平均になります。

Me=\cfrac{x_5+x_6}{2}=\cfrac{6+7}{2}=6,5

中央値計算機

次の計算機に統計データ セットを入力して、中央値を計算します。データはスペースで区切られ、小数点としてピリオドを使用して入力する必要があります。

グループ化されたデータの中央値

データが間隔にグループ化されているときに中央値を計算するには、まず次の式を使用して中央値が含まれる間隔またはビンを見つける必要があります。

\cfrac{n+1}{2}

したがって、中央値は、累積絶対頻度が前の代数式で得られた数よりもすぐに大きい区間内にあります。

中央値が属する区間がわかったら、次の式を適用して中央値の正確な値を見つける必要があります。

Me=L_i+ \cfrac{\displaystyle\frac{n+1}{2}-F_{i-1}}{f_i}\cdot I_i

金:

  • i は、中央値が存在する区間の下限である。
  • nは観測値の総数です。
  • F i-1は、前の間隔の累積された絶対周波数です。
  • f iは、中央値が存在する区間の絶対周波数です。
  • I iは中間区間の幅です。

例として、以下では、間隔にグループ化されたデータの中央値を計算する演習を解決しました。

プールされたデータの中央値

データセットの中央値を見つけるには、まずデータセットが含まれる範囲を決定する必要があります。これを行うには、次の式を使用します。

\cfrac{n+1}{2}=\cfrac{30+1}{2} =15,5 \quad \color{orange}\bm{\longrightarrow}\color{black}\quad [60,70)

したがって、中央値は、累積絶対頻度が 15.5 よりすぐ大きい区間内にあります。この場合、累積絶対頻度が 26 である区間 [60.70) になります。そして、中央値区間がわかったら、次の 2 番目の式を適用します。プロセス:

Me=L_i+ \cfrac{\displaystyle\frac{n+1}{2}-F_{i-1}}{f_i}\cdot I_i

Me=60+\cfrac{\displaystyle\frac{30+1}{2}-15}{11}\cdot 10=60,45

最終的に、プールされたデータ セットの中央値は 60.45 になります。ご覧のとおり、この種の問題では、中央値は通常 10 進数になります。

中央値、平均値、最頻値

この最後のセクションでは、中央値、平均値、最頻値の違いを見ていきます。さて、これらは中心位置を示す 3 つの統計的尺度ですが、その意味は異なります。

これまで見てきたように、中央値は、データが順序付けされたときに中心の位置を占める値として定義されます。

対照的に、平均はすべての統計データの平均値です。平均を計算するには、すべてのデータを加算し、その結果をデータ ポイントの数で割る必要があります。

最後に、モードはデータ系列内で最も繰り返される値です。

ご覧のとおり、3 つの統計的尺度はすべて、確率分布の中心値のアイデアを提供するため、確率分布を説明するのに役立ちます。ただし、どの尺度も他の尺度より優れているということはなく、単に異なる概念を参照しているだけです。

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です