Python でサンプルと母集団の分散を計算する方法
分散は、データセット内の値の分布を測定する方法です。
母集団の分散を計算する式は次のとおりです。
σ 2 = Σ (x i – μ) 2 / N
金:
- Σ :「和」を意味する記号
- μ : 母集団平均
- x i : 母集団の i番目の要素
- N : 人口規模
標本分散を計算する式は次のとおりです。
s 2 = Σ (x i – x ) 2 / (n-1)
金:
- x : サンプル平均
- x i : サンプルの i番目の要素
- n : サンプルサイズ
Python の統計ライブラリのvariance関数とpvariance関数を使用すると、特定のテーブルの標本分散と母集団分散を (それぞれ) すばやく計算できます。
from statistics import variance, pvariance #calculate sample variance variance(s) #calculate population variance pvariance(x)
以下の例は、各機能の実際の使用方法を示しています。
例 1: Python で標本分散を計算する
次のコードは、Python でテーブルの標本分散を計算する方法を示しています。
from statistics import variance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance variance(data) 22,067
標本分散は22.067であることがわかります。
例 2: Python での母集団分散の計算
次のコードは、Python でテーブルの母集団分散を計算する方法を示しています。
from statistics import pvariance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance pvariance(data) 20,596
母集団の分散は20,596であることがわかります。
サンプルと母集団の分散の計算に関する注意事項
標本と母集団の分散を計算するときは、次の点に注意してください。
- 操作しているデータセットが母集団全体、つまり関心のあるすべての値を表す場合、母集団の分散を計算する必要があります。
- 扱っているデータセットが、より大きな対象母集団から採取されたサンプルを表す場合、サンプル分散を計算する必要があります。
- 特定のデータ テーブルの標本分散は、同じデータ テーブルの母集団分散よりも常に大きくなります。これは、標本分散を計算する際に不確実性が高いため、分散の推定値が大きくなるからです。
追加リソース
次のチュートリアルでは、Python で他のスプレッド メトリクスを計算する方法を説明します。
Python で四分位範囲を計算する方法
Python で変動係数を計算する方法
Python でリストの標準偏差を計算する方法