統計的重要性と実際的な重要性の簡単な説明


統計的仮説は、母集団パラメータに関する仮定です。たとえば、ある郡の男性の平均身長が 68 インチであると仮定できます。身長に関する仮説は統計的仮説であり、米国男性の真の平均身長が母集団パラメータです。

仮説検定は、統計的仮説を棄却または棄却できなかったために使用する正式な統計検定です。仮説検定を実行するには、母集団からランダムなサンプルを取得し、帰無仮説が実際に真であると仮定して、サンプル内のデータが発生した可能性が高いかどうかを判断します。

この仮説の下でサンプルデータが十分にありそうもないものであれば、帰無仮説を棄却し、効果が存在すると結論付けることができます。

ゼロが真であると仮定してサンプル データが「十分にありそうもない」かどうかを判断する方法は、特定の有意水準 (通常は 0.01、0.05、または 0.10 が選択されます) を設定し、仮説検定の p 値がより小さいかどうかを確認することです。このレベルの重要性よりも。

p 値が有意水準より小さい場合、結果は統計的に有意であると言われます。それは、ある効果が存在することを意味するだけで、その効果が現実世界で実際に実用的であることを必ずしも意味するわけではありません。結果は、実質的に有意ではなくても、統計的に有意である場合があります。

関連: P値と統計的有意性の説明

実用的な重要性

仮説検定では、効果量が小さいにもかかわらず、統計的に有意な結果が得られる可能性があります。小さな効果量が低い (したがって統計的に有意な) p 値を生成する主な方法は 2 つあります。

1. サンプリングされたデータの変動性は非常に低いです。サンプルデータの変動が小さい場合、仮説検定では母集団の効果をより正確に推定できるため、検定で小さな効果も検出できます。

たとえば、2 つの異なる学校の 20 人の生徒のテスト得点を示す次の 2 つのサンプルに対して独立した 2 サンプル t 検定を実行し、平均テスト得点が学校間で大きく異なるかどうかを判断するとします。

 sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86
sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86

サンプル 1 の平均は85.55で、サンプル 2 の平均は86.40です。独立した 2 サンプルの t 検定を実行すると、検定統計量は-5.3065で、対応する p 値は<0.0001であることがわかります。テスト結果間の差異は統計的に有意です。

これら 2 つのサンプルの平均テスト スコアの差はわずか0.85ですが、各学校のテスト スコアのばらつきが小さいため、統計的に有意な結果が得られます。スコアの標準偏差は、サンプル 1 では0.51 、サンプル 2 では0.50であることに注意してください。

この低い変動性により、仮説検定でスコア間の小さな差を検出し、その差が統計的に有意であると判断できるようになります。

低い変動性が統計的に有意な結論につながる根本的な理由は、独立した 2 サンプル t 検定のt検定統計量が次のように計算されるためです。

検定統計量t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

ここで、s 2 1と s 2 2 は、それぞれサンプル 1 とサンプル 2 のサンプル変動を示します。これら 2 つの数値が小さい場合、 t検定統計量の整数分母が小さいことに注意してください。

そして、小さな数で割ると大きな数が得られます。これは、 t検定統計量が大きく、対応する p 値が小さくなり、統計的に有意な結果が得られることを意味します。

2. サンプルサイズが非常に大きい。サンプルサイズが大きいほど、仮説検定の統計的検出力が大きくなり、小さな効果も検出できるようになります。これにより、実際には有意性がない可能性がある小さな効果にもかかわらず、統計的に有意な結果が得られる可能性があります。

たとえば、2 つの異なる学校の 20 人の生徒のテスト得点を示す次の 2 つのサンプルに対して独立した 2 サンプル t 検定を実行し、平均テスト得点が学校間で大きく異なるかどうかを判断するとします。

 Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93
Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90

各サンプルの箱ひげ図を作成してスコアの分布を表示すると、それらが非常に似ていることがわかります。

サンプル 1 の平均は90.65で、サンプル 2 の平均は90.75です。サンプル 1 の標準偏差は2.77で、サンプル 2 の標準偏差は2.78です。独立した 2 サンプルの t 検定を実行すると、検定統計量は-0.113で、対応する p 値は0.91であることがわかります。テストの平均点間の差は統計的に有意ではありません。

ただし、2 つのサンプルのサンプル サイズが両方とも200であった場合を考えてみましょう。この場合、独立した 2 サンプルの t 検定により、検定統計量が-1.97で、対応する p 値が0.05をわずかに下回ることが明らかになります。テストの平均点間の差は統計的に有意です。

サンプル サイズが大きいと統計的に有意な結論が得られる根本的な理由は、独立した 2 サンプルの t 検定のt検定統計にもう一度戻ります。

検定統計量t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

n 1と n 2が小さい場合、 t検定統計量の整数分母が小さいことに注意してください。そして、小さな数で割ると大きな数が得られます。これは、 t検定統計量が大きく、対応する p 値が小さくなり、統計的に有意な結果が得られることを意味します。

対象分野の専門知識を活用して実用的な重要性を評価する

仮説検定からの統計的に有意な結果が実際に意味があるかどうかを判断するには、多くの場合、主題に関する専門知識が必要です。

前の例では、2 つの学校のテストのスコアの差をテストするときに、平均の差が 1 であるかどうかを判断するのに、学校で働いている人、またはこの種のテストを管理している人の専門知識があれば役立ちます。ポイントが存在するかどうか。実用的な意味を持っています。

たとえば、平均 1 ポイントの差は、アルファ = 0.05 レベルで統計的に有意である可能性がありますが、スコアが最も低い学校は、スコアが最も高い学校が使用するプログラムをより高く採用する必要があることを意味しますか?それとも、管理コストがかかりすぎて、実装するには費用がかかりすぎたり、時間がかかりすぎたりするのでしょうか?

2 つの学校間でテストのスコアに統計的に有意な差があるからといって、その差の効果量が教育システムに何らかの変化を引き起こすほど大きいことを意味するわけではありません。

信頼区間を使用して実際の重要性を評価する

実際の有意性を判断するためのもう 1 つの便利なツールは、信頼区間です。信頼区間は、真の母集団パラメータが存在する可能性が高い値の範囲を示します。

たとえば、2 つの学校間のテストのスコアの差を比較する例に戻りましょう。校長は、学校が新しいプログラムを採用するには平均点の差が少なくとも 5 点必要であると宣言することができます。

ある研究によると、テストの得点間の平均差は 8 点であることがわかります。ただし、この平均値付近の信頼区間は [4, 12] になる可能性があり、 4 が平均テスト結果間の真の差である可能性があることを示しています。この場合、信頼区間は真の差が 5 未満である可能性があることを示しているため、校長は学校がプログラムを変更しないと結論付けることができます。

ただし、別の研究では、テスト結果間の平均差はやはり 8 ポイントですが、平均値付近の信頼区間は [6, 10] になる可能性があることがわかります。この間隔には5が含まれていないため、ディレクターはテスト スコア間の真の差が 5 より大きいと結論付け、プログラムを変更するのが合理的であると判断する可能性があります。

結論

結論として、私たちが学んだことは次のとおりです。

  • 統計的のみの有意性は、特定のレベルの有意性に基づいて効果があるかどうかを示します。
  • 実際的に重要なのは、この効果が現実世界で実際的な影響を与えるかどうかです。
  • 当社は統計分析を使用して統計的有意性を判断し、専門分野の専門知識を使用して実際の有意性を評価します。
  • (1) サンプル データの変動が非常に小さい場合、および (2) サンプル サイズが非常に大きい場合、効果サイズが小さいと小さな p 値が生成される可能性があります。
  • 仮説検定を実行する前に最小効果量を設定することで、仮説検定の結果 (統計的に有意であっても) が現実の世界で実際に実用的であるかどうかをより適切に評価できます。
  • 信頼区間は、実際の有意性を判断するのに役立ちます。最小効果量が信頼区間内にない場合、結果は実質的に有意である可能性があります。

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です