統計における正規性の仮定とは何ですか?
多くの統計的テストは、いわゆる正規性の仮定に依存しています。
この仮説は、母集団から多数の独立した無作為サンプルを収集し、目的の値 ( サンプル平均など) を計算し、ヒストグラムを作成してサンプル平均の分布を視覚化すると、完全な釣り鐘曲線が観察されるはずであると述べています。
多くの統計手法では、次のようなデータについてこの仮定が行われます。
1. 1 つのサンプル t 検定: サンプル データが正規分布していると仮定します。
2. 2 サンプル t 検定: 2 つのサンプルが正規分布していると仮定します。
3. ANOVA : モデルの残差が正規分布していると仮定します。
4.線形回帰: モデルの残差が正規分布していると仮定します。
この仮定が満たされない場合、これらのテストの結果は信頼性が低くなり、データサンプルから導き出された結論を 母集団全体に自信を持って一般化することができなくなります。このため、この仮説が満たされているかどうかを確認することが重要です。
この正規性の仮定が満たされているかどうかを確認するには、次の 2 つの一般的な方法があります。
1. 正常性を視覚化する
2. 正式な統計テストを実行する
次のセクションでは、作成できる具体的なグラフと、正規性をチェックするために実行できる具体的な統計テストについて説明します。
正常性を視覚化する
データセットが正規分布しているかどうかを確認する簡単かつ非公式な方法は、ヒストグラムまたは QQ プロットを作成することです。
1. ヒストグラム
データセットのヒストグラムがほぼ釣鐘型の場合、データは正規分布している可能性があります。
2.QQランド
「分位数-分位数」の略である QQ プロットは、X 軸に沿って理論的な分位数 (つまり、正規分布に従った場合のデータの位置) と、Y 軸に沿ってサンプルの分位数を表示するプロットの一種です。 (つまり、データが実際に存在する場所)。
データ値が 45 度の角度を形成するほぼ直線に従っている場合、データは正規分布しているとみなされます。
正式な統計テストを実行する
正式な統計テストを実行して、データ セットが正規分布しているかどうかを判断することもできます。
検定のp 値が特定の有意水準 (α = 0.05 など) を下回っている場合、データが正規分布していないことを示す十分な証拠があります。
正規性をテストするために一般的に使用される 3 つの統計テストがあります。
1. ハルケ・ベラ・テスト
2. シャピロ・ウィルク・テスト
3. コルモゴロフ・スミルノフ検定
正規性の前提が崩れた場合はどうするか
データが正規分布していないことが判明した場合、次の 2 つの選択肢があります。
1. データを変換します。
1 つのオプションは、より正規分布になるようにデータを単純に変換することです。一般的な変換には次のものがあります。
- 対数変換:データを y からlog(y)に変換します。
- 平方根変換:データを y から√yに変換します。
- 立方根変換:データを y からy 1/3に変換します。
- Box-Cox 変換: Box-Cox プロシージャを使用してデータを変換します。
これらの変換を実行すると、データ値の分布は通常、より正規分布になります。
2. ノンパラメトリック検定を実行する
正規性を仮定する統計的テストは、パラメトリック テストと呼ばれます。しかし、この正規性を仮定しない、いわゆるノンパラメトリック検定のグループもあります。
データが正規分布していないことが判明した場合は、ノンパラメトリック検定を実行するだけで済みます。一般的な統計検定のノンパラメトリック バージョンをいくつか示します。
パラメトリックテスト | ノンパラメトリック等価物 |
---|---|
サンプル t 検定 | Wilcoxon の署名付き順位テストのサンプル |
2 サンプルの t 検定 | マン・ホイットニーの U 検定 |
対応のあるサンプルの t 検定 | Wilcoxon 符号付き順位テストの 2 つのサンプル |
一元配置分散分析 | クラスカル・ウォリス検定 |
これらのノンパラメトリック検定のそれぞれにより、正規性の仮定を満たさずに統計検定を実行することが可能になります。