カイ二乗検定
この記事では、統計におけるカイ二乗検定とは何なのか、また何に使用されるのかについて説明します。また、カイ二乗検定の方法や、段階的に解決される演習も学習します。
カイ二乗検定とは何ですか?
カイ二乗検定は、予想される頻度と観測された頻度の間に統計的に有意な差があるかどうかを判断するために使用される統計的検定です。
論理的には、カイ二乗検定統計量はカイ二乗分布に従います。したがって、検定統計量の値は、カイ二乗分布の特定の値と比較する必要があります。以下では、カイ二乗検定がどのように実行されるかを見ていきます。
このタイプの統計検定はピアソン カイ二乗検定としても知られ、カイ二乗分布の記号χ² 検定で表されることもあります。
カイ二乗検定の公式
カイ二乗検定統計量は、観測値と期待値の差の二乗和を期待値で割ったものに等しくなります。
したがって、カイ二乗検定の式は次のようになります。
金:
-
はカイ二乗検定統計量であり、次のカイ二乗分布に従います。
自由度。
-
データのサンプルサイズです。
-
はデータ i の観測値です。
-
はデータ i の期待値です。
カイ二乗検定を検定する仮説の帰無仮説は、観測値が期待値と等しいということです。一方、検定の対立仮説は、観測値の 1 つが期待値と異なるというものです。
したがって、重要度のレベルを考慮すると、
、計算された検定統計量を臨界検定値と比較して、帰無仮説と対立仮説のどちらを棄却するかを決定する必要があります。
- テスト統計量が臨界値未満の場合
、対立仮説は棄却されます (帰無仮説は受け入れられます)。
- テスト統計量が臨界値より大きい場合
、帰無仮説は棄却されます (対立仮説は受け入れられます)。
カイ二乗検定の例
カイ二乗検定の定義とその式が何であるかを理解したら、このタイプの統計検定がどのように実行されるかを理解できるように、段階的に解決された例を以下に示します。
- 店主は、売上の 50% が製品 A、売上の 35% が製品 B、15% が製品 C であると言っています。ただし、各製品の販売単位は、それらが提示されている単位です。以下の分割表にある。所有者の理論上のデータが、収集された実際のデータと統計的に異なるかどうかを分析します。
製品 | 観察された売上 (O i ) |
---|---|
製品A | 453 |
製品B | 268 |
製品C | 79 |
合計 | 800 |
まず、ストアオーナーが期待する価値を計算する必要があります。これを行うには、各製品の予想売上のパーセンテージと達成された総売上数を掛けます。
したがって、問題の度数分布表は次のようになります。
製品 | 観察された売上 (O i ) | 予想売上高 (E i ) |
---|---|---|
製品A | 453 | 400 |
製品B | 268 | 280 |
製品C | 79 | 120 |
合計 | 800 | 800 |
すべての値を計算したので、カイ二乗検定公式を適用して検定統計量を計算します。
検定統計量の値が計算されたら、カイ二乗分布表を使用して検定の臨界値を見つけます。カイ二乗分布は次のようになります。
自由度なので、重要度レベルを選択すると
テストの臨界値は次のとおりです。
したがって、検定統計量 (21.53) は臨界検定値 (5.991) より大きいため、帰無仮説は棄却され、対立仮説が受け入れられます。これは、データが大きく異なるため、店主は実際とは異なる売上を期待していたことを意味します。
カイ二乗検定の解釈
カイ二乗検定の解釈は、得られた検定結果だけで行うことはできず、検定の臨界値と比較する必要があります。
論理的には、計算された検定統計量の値が小さいほど、観察されたデータが期待されるデータに類似していることになります。したがって、カイ二乗検定の結果が 0 であれば、観測値と期待値がまったく同じであることを意味します。一方、テスト結果が大きいほど、観測値が期待値と大きく異なることを意味します。
ただし、2 つのデータセットが統計的に異なるか等しいかどうかを判断するには、対照の帰無仮説または対立仮説を棄却するために、計算された検定値を臨界検定値と比較する必要があります。検定統計量が分布の臨界値より小さい場合、対立仮説は拒否されます。一方、検定統計量が分布の臨界値より大きい場合、帰無仮説は棄却されます。