Python でサンプルと母集団の分散を計算する方法


分散は、データセット内の値の分布を測定する方法です。

母集団の分散を計算する式は次のとおりです。

σ 2 = Σ (x i – μ) 2 / N

金:

  • Σ :「和」を意味する記号
  • μ : 母集団平均
  • x i : 母集団の i番目の要素
  • N : 人口規模

標本分散を計算する式は次のとおりです。

s 2 = Σ (x ix ) 2 / (n-1)

金:

  • x : サンプル平均
  • x i : サンプルの i番目の要素
  • n : サンプルサイズ

Python の統計ライブラリのvariance関数とpvariance関数を使用すると、特定のテーブルの標本分散と母集団分散を (それぞれ) すばやく計算できます。

 from statistics import variance, pvariance

#calculate sample variance
variance(s)

#calculate population variance
pvariance(x)

以下の例は、各機能の実際の使用方法を示しています。

例 1: Python で標本分散を計算する

次のコードは、Python でテーブルの標本分散を計算する方法を示しています。

 from statistics import variance 

#define data
data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14]

#calculate sample variance
variance(data)

22,067

標本分散は22.067であることがわかります。

例 2: Python での母集団分散の計算

次のコードは、Python でテーブルの母集団分散を計算する方法を示しています。

 from statistics import pvariance 

#define data
data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14]

#calculate sample variance
pvariance(data)

20,596

母集団の分散は20,596であることがわかります。

サンプルと母集団の分散の計算に関する注意事項

標本と母集団の分散を計算するときは、次の点に注意してください。

  • 操作しているデータセットが母集団全体、つまり関心のあるすべての値を表す場合、母集団の分散を計算する必要があります。
  • 扱っているデータセットが、より大きな対象母集団から採取されたサンプルを表す場合、サンプル分散を計算する必要があります。
  • 特定のデータ テーブルの標本分散は、同じデータ テーブルの母集団分散よりも常に大きくなります。これは、標本分散を計算する際に不確実性が高いため、分散の推定値が大きくなるからです。

追加リソース

次のチュートリアルでは、Python で他のスプレッド メトリクスを計算する方法を説明します。

Python で四分位範囲を計算する方法
Python で変動係数を計算する方法
Python でリストの標準偏差を計算する方法

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です