信頼区間
この記事では、統計における信頼区間とは何か、またその用途について説明します。また、信頼区間に影響を与える要因や信頼区間の計算方法についても説明します。
信頼区間とは何ですか?
統計において、信頼区間は、母集団パラメータの値が特定の信頼レベルに関連付けられる値の間の近似値を与える区間です。最も一般的な信頼区間の信頼水準は 95% または 99% です。
たとえば、信頼水準が 95% である母集団の平均の信頼区間が (3.7) である場合、これは、調査対象の母集団の平均が 95% の確率で 3 ~ 7 の間にあることを意味します。
したがって、信頼区間は、母集団パラメータが間にある 2 つの値を推定するために使用されます。一般に、母集団パラメータの値は不明であるため、サンプル内のデータから信頼区間を計算して、母集団パラメータの推定値を取得します。
信頼区間に影響を与える要因
信頼区間の定義を理解したら、概念をよりよく理解するために信頼区間が依存する要因が何かを確認します。
- サンプルサイズ: データが多ければ多いほど、より多くの値を推定できるため、調査される観測値の数は信頼区間の精度に影響します。一般に、サンプルサイズが大きくなるほど、信頼区間の幅は小さくなります。
- 誤差の範囲: 許容誤差が大きいほど、信頼区間も大きくなるため、パラメーターの真の値が信頼区間内に収まる可能性が高くなります。ただし、誤差の範囲により信頼区間の精度は低下します。
- 信頼水準: 母集団統計量の推定値が信頼区間内に収まる確率です。通常、区間の信頼水準は 1-α で示され、パーセンテージで表されます。信頼水準が高いと、真の値が区間限界値の間にある確率が高くなりますが、区間の幅も広くなります。
- 推定パラメータ: 信頼区間は、近似されるパラメータによって異なります。実際、信頼区間の計算に使用する式は近似パラメータによって異なります。
信頼区間の計算方法
平均、分散、または割合の信頼区間を決定するかどうかに応じて、使用する式が異なるため、各タイプの信頼区間の計算に適用する式を以下に示します。
平均値の信頼区間
変数を入力するプロセスは次のように行われるという事実から始めます。
平均値の信頼区間は、Z α/2の値に標準偏差 (σ) を掛け、サンプルのサイズ (n) の平方根で割った値をサンプル平均に加算および減算することによって計算されます。したがって、平均の信頼区間を計算する式は次のようになります。
大きなサンプル サイズと 95% の信頼水準の場合、臨界値は Z α/2 = 1.96 で、99% の信頼水準の場合、臨界値は Z α/2 = 2.576 です。
上記の式は、母集団の分散がわかっている場合に使用されます。ただし、母集団の分散が不明な場合 (最も一般的なケース)、平均の信頼区間は次の式を使用して計算されます。
金:
-
はサンプル平均です。
-
は、確率 α/2 の n-1 自由度のスチューデント t 分布の値です。
-
は標本標準偏差です。
-
はサンプルサイズです。
分散の信頼区間
母集団の分散の信頼区間を計算するには、カイ二乗分布が使用されます。より具体的には、分散の信頼区間を計算する式は次のとおりです。
金:
-
はサンプルサイズです。
-
は標本標準偏差です。
-
α/2 未満の確率に対する n-1 自由度のカイ二乗分布の値です。
-
は、1-α/2 より大きい確率に対する n-1 自由度のカイ二乗分布の値です。
割合の信頼区間
比率の信頼区間は、Z α/2の値にサンプル比率 (p) の平方根を掛け、1-p を掛けてサンプル サイズ (n) で割った値をサンプル比率に加算および減算することによって計算されます。したがって、比率の信頼区間を計算する式は次のとおりです。
金:
-
はサンプルの割合です。
-
はサンプルサイズです。
-
α/2 の確率に対応する標準正規分布の分位数です。サンプルサイズが大きく、95% の信頼水準の場合は通常 1.96 に近く、99% の信頼水準の場合は通常 2.576 に近くなります。