P値と統計的有意性の説明


統計学では、 p 値は、t 検定、カイ二乗検定、回帰分析、ANOVA、およびその他のさまざまな統計手法の仮説検定でよく使用されます。

p 値は非常に一般的ですが、人々は p 値を誤って解釈することが多く、分析や研究の結果を解釈する際にエラーが発生する可能性があります。

この記事では、p 値を理解し、解釈する方法を明確かつ実践的な方法で説明します。

仮説検証

p 値を理解するには、まず仮説検定の概念を理解する必要があります。

検定仮説は、仮説を棄却するか棄却できなかったかに使用する正式な統計検定です。たとえば、新しい薬、方法、または手順には、現在の薬、方法、または手順よりも特定の利点があるという仮説を立てることができます。

これをテストするには、帰無仮説と対立仮説を使用して仮説検定を実行します。

帰無仮説– 新しい方法と古い方法の間に効果や違いはありません。

代替仮説– 新しい方法と古い方法の間には効果または違いがあります。

p 値は、サンプル データが与えられた場合に、帰無仮説がどの程度信頼できるかを示します。具体的には、帰無仮説が正しいと仮定すると、p 値は、サンプル データで実際に観察された効果と少なくとも同じくらい大きな効果が得られる確率を示します。

仮説検定の p 値が十分に低い場合、帰無仮説を棄却できます。具体的には、仮説検定を行う場合、最初から有意水準を選択する必要があります。有意水準の一般的な選択は 0.01、0.05、および 0.10 です。

p 値が有意水準を下回っている場合、帰無仮説を棄却できます。

それ以外の場合、p 値が有意水準以上であれば、帰無仮説を棄却できません。

P値の解釈方法

p 値の古典的な定義は次のとおりです。

p 値は、帰無仮説が真であると仮定した場合に、標本統計量と少なくとも同じくらい極端な標本統計量が観察される確率です。

たとえば、ある工場が平均重量 200 ポンドのタイヤを生産していると主張しているとします。監査人は、この工場で生産されるタイヤの実際の平均重量は 200 ポンド異なると仮説を立てています。そこで、仮説検定を実行したところ、検定の p 値が 0.04 であることがわかりました。この p 値を解釈する方法は次のとおりです。

工場が実際に平均重量 200 ポンドのタイヤを製造している場合、ランダムなサンプリング誤差により、すべての監査の 4% がサンプルで観察された効果以上に達します。これは、工場が実際に平均重量 200 ポンドのタイヤを製造している場合、監査人が取得したサンプル データを入手することは非常にまれであることを示しています。

この仮説検定で使用される有意性のレベルに応じて、監査人は、この工場で生産されるタイヤの実際の平均重量が確かに 200 ポンドであるという帰無仮説を棄却する可能性があります。彼が監査中に取得したデータ サンプルは、帰無仮説とあまり一致しませんでした。

P値を解釈しない方法

p 値に関する最大の誤解は、p 値が真の帰無仮説 (タイプ I の誤りと呼ばれる) を棄却することによって誤りが生じる確率と同等であるということです。

p 値が誤り率と一致しない主な理由は 2 つあります。

1. P 値は、帰無仮説が真であり、サンプルデータと帰無仮説の間の差異は単に偶然によるものであるという仮定に基づいて計算されます。したがって、p 値は、計算の観点からは 100% 正しいため、ゼロ値が真であるか偽である確率を伝えることはできません。

2. p 値が低いということは、ゼロが真であると仮定するとサンプル データがありそうもないことを示していますが、p 値からは、次のケースのどれがより可能性が高いかを判断することはできません。

  • ヌルは偽です
  • ゼロ値は true ですが、奇妙なサンプルが得られました

前の例と比較して、p 値を解釈する正しい方法と間違った方法を次に示します。

  • 正しい解釈:工場で平均重量 200 ポンドのタイヤが製造されていると仮定すると、サンプルで得られた観察された差異、またはランダム サンプリングによる監査の 4% でのより極端な差異が得られることになります。
  • 間違った解釈:帰無仮説を棄却した場合、間違いを犯している可能性は 4% あります。

P値の解釈例

次の例は、仮説検定のコンテキストで p 値を解釈する正しい方法を示しています。

例1

ある電話会社は、顧客の 90% がサービスに満足していると主張しています。この主張を検証するために、独立した研究者が 200 人の顧客から 単純無作為サンプルを集め、サービスに満足しているかどうかを尋ねたところ、85% が「はい」と答えました。このデータ サンプルに関連する p 値は 0.018 であることがわかりました。

p 値の正しい解釈:顧客の 90% が実際にサービスに満足していると仮定すると、研究者はサンプルで得られた観察された差異、またはランダム サンプリングによる監査の 1.8% でのより極端な差異を取得することになります。エラー。 。

例 2

ある会社が携帯電話用の新しいバッテリーを発明しました。同社は、この新しいバッテリーは古いバッテリーよりも少なくとも10分長く動作すると主張している。この主張を検証するために、研究者は 80 個の新しいバッテリーと 80 個の古いバッテリーの単純な無作為サンプルを採取しました。新しいバッテリーの持続時間は平均 120 分 (標準偏差 12 分)、古いバッテリーの持続時間は平均 115 分 (標準偏差 15 分) です。母集団平均の差の検定から得られる p 値は 0.011 です。

p 値の正しい解釈:新しいバッテリーの動作時間が古いバッテリーと同じかそれより短いと仮定すると、研究者は観察された差異、またはランダム サンプリングの誤差により研究の 1.1% でより極端な差異が得られることになります。

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です