比率の差の信頼区間
比率の差の信頼区間 (CI) は、一定の信頼度で 2 つの母集団比率間の真の差が含まれる可能性が高い値の範囲です。
このチュートリアルでは次について説明します。
- この信頼区間を作成する動機。
- この信頼区間を作成する式。
- この信頼区間を計算する方法の例。
- この信頼区間をどう解釈するか。
比率の違いに対する CI: モチベーション
研究者は多くの場合、2 つの母集団の比率の差を推定したいと考えます。この差を推定するために、各母集団から無作為にサンプルを収集し、各サンプルの割合を計算します。次に、2 つの比率の差を比較できます。
ただし、サンプルの比率間の差異が母集団の比率間の真の差異に対応するかどうかを確実に知ることはできません。これが、2 つの比率の差の信頼区間を作成できる理由です。これにより、人口比率間の真の差異が含まれる可能性のある値の範囲が得られます。
たとえば、A 郡の特定の法律を支持する住民の割合と B 郡の法律を支持する住民の割合の差を推定したいとします。
各郡には何千人もの住民がいるため、各郡の住民全員を訪問して調査するには時間と費用がかかりすぎます。
代わりに、各郡から 単純に無作為に住民のサンプルを採取し、各サンプルにおける法律を支持する割合を使用して、2 つの郡間の割合の本当の違いを推定することができます。
サンプルはランダムであるため、2 つのサンプル間の比率の差が 2 つの母集団間の比率の差に正確に対応するという保証はありません。したがって、この不確実性を捉えるために、2 つの母集団間の比率の真の違いが含まれる可能性が高い値の範囲を含む信頼区間を作成できます。
比率の差の CI:式
次の式を使用して、2 つの母集団比率の差の信頼区間を計算します。
信頼区間 = (p 1 –p 2 ) +/- z*√(p 1 (1-p 1 )/n 1 + p 2 (1-p 2 )/n 2 )
金:
- p 1 、p 2 : サンプル 1 の割合、サンプル 2 の割合
- z: 信頼水準に基づく z 臨界値
- n 1 、n 2 : サンプルサイズ 1、サンプルサイズ 2
使用する Z 値は、選択した信頼レベルによって異なります。次の表は、最も一般的な信頼水準の選択肢に対応する Z 値を示しています。
自信のレベル | Z値 |
---|---|
0.90 | 1,645 |
0.95 | 1.96 |
0.99 | 2.58 |
より高い信頼水準はより大きな Z 値に対応し、より広い信頼区間につながることに注意してください。これは、たとえば、同じデータセットでは 95% 信頼区間が 90% 信頼区間よりも広いことを意味します。
比率の差の CI:例
A 郡の特定の法律を支持する住民の割合と B 郡の法律を支持する住民の割合との差を推定したいとします。各サンプルの概要データは次のとおりです。
サンプル 1:
- n 1 = 100
- p 1 = 0.62 (つまり、住民 100 人中 62 人が法律を支持)
サンプル 2:
- n2 = 100
- p 2 = 0.46 (つまり、住民 100 人中 46 人が法律を支持)
母集団の比率の違いに対するさまざまな信頼区間を見つける方法は次のとおりです。
90% 信頼区間:
(.62-.46) +/- 1.645*√(.62(1-.62)/100 + .46(1-.46)/100) = [.0456, .2744]
95% 信頼区間:
(.62-.46) +/- 1.96*√(.62(1-.62)/100 + .46(1-.46)/100) = [.0236, .2964]
99% 信頼区間:
(0.62-0.46) +/- 2.58*√(0.62(1-0.62)/100 + 0.46(1-0.46)/100) = [-0.0192, 0.3392]
注:これらの信頼区間は、「比率の差の信頼区間計算ツール」を使用して見つけることもできます。
比率の違いに対する CI : 解釈
信頼区間を解釈する方法は次のとおりです。
95% の確率で、信頼区間 [.0236, .2964] に、2 つの郡間の法律を支持する住民の割合の真の差異が含まれています。
この間隔には値「0」が含まれていないため、A 郡と B 郡では、この法律を支持する住民の割合に実際の違いがある可能性が非常に高いことを意味します。