分散

この記事では、分散とも呼ばれる分散とは何か、またその計算方法について説明します。分散の公式、分散計算の具体例が記載されており、さらにオンライン計算機を使用して任意のデータセットの分散を計算することができます。

また、グループ化されたデータの分散を別の方法で見つける方法も示します。最後に、母集団の分散と標本分散の違い、分散と標準偏差の違い、およびこの統計的尺度の特性について説明します。

分散とは何ですか?

統計学における分散は、確率変数の変動性を示す分散の尺度です。分散は、残差の二乗和を観測値の総数で割ったものに等しくなります。

残差は、統計データ ポイントの値とデータ セットの平均の差として理解されることに注意してください。

確率論では、分散の記号はギリシャ文字のシグマ二乗 (σ 2 ) です。通常はVar(X)としても表されますが、 X は分散の計算元となる確率変数です。

一般に、確率変数の分散値の解釈は簡単です。分散値が大きいほど、データはより分散しています。逆も同様で、分散値が小さいほど、データ系列の分散は少なくなります。ただし、分散を解釈するときは、外れ値によって分散値が歪められる可能性があるため、外れ値に注意する必要があります。

分散、分散以外に考慮される他の尺度には、範囲、標準偏差、平均偏差、および変動係数があります。

ギャップの計算方法

分散を計算するには、次の手順を実行する必要があります。

  1. データセットの算術平均を求めます。
  2. データセットの値と平均の差として定義される残差を計算します。
  3. 各余りを二乗します。
  4. 前のステップで計算されたすべての結果を加算します。
  5. データの総数で割ります。得られる結果は、データ系列の分散です。

結論として、データセットの分散を計算する式は次のとおりです。

分散

金:

  • X

    分散を計算する確率変数です。

  • x_i

    データ値です

    i

  • n

    観測値の合計数です。

  • \overline{X}

    確率変数の平均です

    X

👉以下の計算機を使用して、任意のデータセットの分散を計算できます。

したがって、データ系列から分散を抽出するには、算術平均の計算方法を理解しておくことが不可欠です。これを行う方法を覚えていない場合は、上記のリンク先の記事で確認してください。

偏差の例

分散の定義がわかったので、データ系列の分散がどのように取得されるかを確認できるように、段階的に演習を解いていきます。

  • 多国籍企業の過去 5 年間の経済的成果は知られており、大部分は利益を得ましたが、ある年には 1,150 万、2、9、700 万ユーロという多大な損失を出しました。このデータセットの分散を計算します。

上の説明で見たように、データ系列の分散を見つけるために最初に行う必要があるのは、その算術平均を計算することです。

\overline{X}=\cfrac{11+5+2+(-9)+7}{5}=3,2

データの平均値がわかったら、分散の公式を使用できます。

Var(X)=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2}{n}

演習ステートメントで提供されるデータを式に代入します。

Var(X)=\cfrac{\displaystyle (11-3,2)^2+(5-3,2)^2+(2-3,2)^2+(-9-3,2)^2+(7-3,2)^2}{5}

最後に、残っているのは、分散を計算するための演算を解くことだけです。

\begin{aligned}Var(X)&=\cfrac{7,8^2+1,8^2+(-1,2)^2+(-12,2)^2+3,8^2}{5}\\[2ex]&=\cfrac{60,84+3,24+1,44+148,84+14,44}{5}\\[2ex]&= \cfrac{228,8}{5} \\[2ex]&=45,76 \ \text{millones de euros}^2\end{aligned}

分散単位は統計データの単位と同じですが二乗されていることに注意してください。このため、このデータ グループの分散は 4,576 万ユーロ2です。

ギャップ計算機

次の計算機に統計データ セットを入力して、その分散を計算します。データはスペースで区切られ、小数点としてピリオドを使用して入力する必要があります。

グループ化されたデータの分散

間隔 にグループ化されたデータの分散を計算するには、次の手順に従う必要があります。

  1. グループ化されたデータの平均を求めます。
  2. グループ化されたデータの残差を計算します。
  3. 各余りを二乗します。
  4. 以前の各結果にその間隔の頻度を掛けます。
  5. 前のステップで取得したすべての値の合計を加算します。
  6. 観測値の合計数で割ります。結果として得られる数値は、グループ化されたデータの分散です。

つまり、間隔にグループ化されたデータの分散を計算する式は次のようになります。

Var(X)=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2\cdot f_i }{n}

通常は上記の式が使用されますが、以下の代数式も同等であるため使用できます。

Var(X)=\cfrac{\displaystyle\sum_{i=1}^n x_i^2\cdot f_i }{n}-\overline{X}^2

例として、次のグループ化されたデータ系列の分散を求めます。

間隔ごとにグループ化されたデータ

まず、グループ化されたデータの平均を決定する必要があります。これを行うには、クラスマークと頻度の積を含む列を頻度テーブルに追加します。

平均でグループ化されたデータ

ここで、追加した列の合計をデータの総数で割ることにより、グループ化されたデータの平均を計算します。

\overline{X}=\cfrac{\displaystyle\sum_{i=1}^n x_i\cdot f_i}{n}=\cfrac{750}{30}=25

そして、計算されたデータの平均から、次の 3 つの列を追加できます。

グループ化されたデータの分散

したがって、プールされたデータセットの分散は、最後の列の合計を観測データの総数で割ったものになります。

Var(X)=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2\cdot f_i }{n}=\cfrac{4200}{30}=140

分散と標準偏差

分散と標準偏差 (または標準偏差) は分散の 2 つの尺度であり、どちらもデータセットの分散の度合いを示します。ただし、分散と標準偏差の違いは、一般に分散の方が標準偏差の 2 乗であるため、値が大きくなるということです。

標準偏差は一般にギリシャ文字のシグマ (σ) で表され、分散はこれら 2 つの分散メトリックの間に存在する数学的関係であるため、分散は文字シグマの二乗 (σ 2 ) で表されます。

Var(X)=\sigma^2

したがって、データ セットの分散値を計算したら、分散の平方根を求めるだけで、同じセットの標準偏差値を簡単に見つけることができます。

\sigma=\sqrt{\sigma^2}

母集団分散と標本分散

論理的には、母集団の分散は統計的な母集団の分散の計算を指しますが、代わりに標本の分散が標本の分散の計算に適用されます。ただし、母集団分散の式は標本分散の式とは異なるため、これらは 2 つの異なる概念です。

通常、分散の演習では、特に指示がない限り、提供されたデータセットの分散を求めるには、母分散の式を使用する必要があります。これは、記事の冒頭で説明したものです。

\sigma^2=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2}{n}

しかし、おそらく一部の問題では、統計データを標本として扱うように求められます。その場合、標本分散の式を使用する必要があります。

s^2=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2}{n-1}

母集団分散が計算されていることを示すにはギリシャ文字 σ で示されますが、標本分散が計算される場合には文字 s が使用されることに注意してください。

ご覧のとおり、2 つの式の唯一の違いは、サンプルの分散を観測値の総数から 1 を引いた値で割る必要があることです。たとえば、データ項目が合計 30 個ある場合、29 で割ります。ただし、分子の計算はまったく同じ方法で行われます。

分散特性

分散には次の特性があります。

  • ランダム変数の分散は常に 0 以上になります。同様に、分散がゼロの場合、すべての統計データが同じであることを意味します。

Var(x)\ge 0

  • 明らかに、単一値の分散はゼロです。

Var(a)=0\qquad a\in \mathbb{R}

  • スカラーと変数の積の分散は、そのスカラーの 2 乗と変数の分散の積に相当します。

Var(aX)=a^2\cdot Var(X)\qquad a\in \mathbb{R}

  • 2 つの従属変数の合計の分散は、各変数の個別の分散の合計に 2 つの変数間の共分散の 2 倍を加えたものに相当します。

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

  • したがって、2 つの変数が独立している場合、それらの合計の分散を求めるには、それらの分散を加算するだけで十分です。

Var(X+Y)=Var(X)+Var(Y)

  • 偏差は、次の式を使用して数学的期待値で定義することもできます。

Var(X)=E\bigl[(X-\overline{X})^2\bigr]

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です