適合度の g 検定: 定義 + 例
統計学では、適合度の G 検定を使用して、カテゴリ変数が仮説分布に従うかどうかを判断します。
この検定は 、カイ二乗適合度検定の代替であり、データに外れ値が存在する場合、または扱うデータが非常に大きい場合によく使用されます。
適合度の G 検定では、次の帰無仮説と対立仮説が使用されます。
- H 0 :変数は仮説的な分布に従います。
- H A :変数は仮説の分布に従いません。
検定統計量は次のように計算されます。
G=2 * Σ[O * ln(O/E)]
金:
- O:細胞内で観察される数
- E:セル内の期待される数値
検定統計量に対応する p 値が特定の有意水準を下回る場合、帰無仮説を棄却し、調査対象の変数が仮説の分布に従っていないと結論付けることができます。
次の例は、実際に適合度 G 検定を実行する方法を示しています。
例: 適合度の G テスト
生物学者は、特定の地域に 3 種のカメが同じ割合で存在すると主張しています。この主張を検証するために、独立した研究者が各種類の種の数を数え、次のことを発見しました。
- 種A: 80
- 種B: 125
- 種族C: 95
独立した研究者は、次の手順を使用して適合度 G 検定を実行し、収集したデータが生物学者の主張と一致するかどうかを判断できます。
ステップ 1: 帰無仮説と対立仮説を述べます。
研究者は、次の仮定を使用して適合度の G 検定を実行します。
- H 0 :この地域には 3 種のカメが同じ割合で存在します。
- H A :この地域には 3 種類のカメが同じ割合で存在しません。
ステップ 2: 検定統計量を計算します。
検定統計量を計算する式は次のとおりです。
G=2 * Σ[O * ln(O/E)]
この例では、合計 300 匹のカメが観察されています。各種の割合が等しい場合、各種 100 匹のカメが観察されることが予想されます。したがって、次のように検定統計量を計算できます。
G = 2 * [80*ln(80/100) + 125*ln(125/100) + 95*ln(95/100)] = 10.337
ステップ 3: 検定統計量の p 値を計算します。
カイ二乗から P 値への計算ツールによると、検定統計量 10.337 および #categories-1 = 3-1 = 2 自由度に関連付けられた p 値は0.005693です。
この p 値は 0.05 未満であるため、研究者は帰無仮説を棄却します。これは、彼女が、各カメの種が同じ割合でその特定の地域に存在しないと言える十分な証拠を持っていることを意味します。
ボーナス: R の適合度に関する G テスト
DescTools パッケージのGtest()関数を使用すると、R で適合度 G テストをすばやく実行できます。
次のコードは、前の例で G テストを実行する方法を示しています。
#load the DescTools library library (DescTools) #perform the G-test GTest(x = c(80, 125, 95), #observed values p = c(1/3, 1/3, 1/3), #expected proportions correct=" none ") Log likelihood ratio (G-test) goodness of fit test data: c(80, 125, 95) G = 10.337, X-squared df = 2, p-value = 0.005693
G 検定統計量は10.337で、対応する p 値は0.005693であることに注意してください。この p 値は 0.05 未満であるため、帰無仮説は棄却されます。
これは手動で計算した結果と一致します。
追加リソース
この適合度 G テスト計算ツールを自由に使用して、任意のデータ セットに対して G テストを自動的に実行できます。