R でカイ二乗適合度検定を実行する方法
カイ二乗適合度検定は、カテゴリ変数が仮説分布に従うかどうかを判断するために使用されます。
このチュートリアルでは、R でカイ二乗適合度検定を実行する方法について説明します。
例: R でのカイ二乗適合度検定
店主は、毎日同じ数の顧客が店に来ると言いました。この仮説を検証するために、研究者は特定の週に来店する顧客の数を記録し、次のことを発見しました。
- 月曜日: 50 人の顧客
- 火曜日:お客様60名
- 水曜日:お客様40名
- 木曜日:お客様47名
- 金曜日: 53名のお客様
次の手順に従って、R でカイ 2 乗適合度検定を実行し、データが店舗所有者の主張と一致しているかどうかを判断します。
ステップ 1: データを作成します。
まず、観測された頻度と、毎日の顧客の予想される割合を含む 2 つのテーブルを作成します。
observed <- c(50, 60, 40, 47, 53)
expected <- c(.2, .2, .2, .2, .2) #must add up to 1
ステップ 2: カイ二乗適合度検定を実行します。
次に、次の構文を使用するchisq.test()関数を使用して、カイ 2 乗適合検定を実行できます。
chisq.test(x, p)
金:
- x:観測された周波数の数値ベクトル。
- p:予想される比率の数値ベクトル。
次のコードは、この例でこの関数を使用する方法を示しています。
#perform Chi-Square Goodness of Fit Test
chisq.test(x=observed, p=expected)
Chi-squared test for given probabilities
data: observed
X-squared = 4.36, df = 4, p-value = 0.3595
カイ二乗検定統計量は4.36で、対応する p 値は0.3595です。
p 値は、n-1 自由度 (dof) のカイ 2 乗値に対応することに注意してください。ここで、n は異なるカテゴリの数です。この場合、df = 5-1 = 4 となります。
カイ二乗から P 値への計算ツールを使用すると、df = 4 の X 2 = 4.36 に対応する p 値が0.35947であることを確認できます。
カイ二乗適合度検定では次の帰無仮説と対立仮説が使用されることを思い出してください。
- H 0 : (帰無仮説)変数は仮説の分布に従います。
- H 1 : (対立仮説)変数は仮説の分布に従いません。
p 値 (0.35947) は 0.05 未満ではないため、帰無仮説を棄却できません。これは、顧客の本当の分布が店主が報告したものと異なると言える十分な証拠がないことを意味します。