直接選択とは何ですか? (定義&例)
統計学における段階的選択は、入力する統計的に有効な理由がなくなるまでモデルに段階的に予測子を入力および削除することにより、一連の予測子変数から回帰モデルを構築するために使用できる手順です。またはさらに削除します。
段階的選択の目的は、応答変数と統計的に有意に関連するすべての予測変数を含む回帰モデルを作成することです。
最も一般的に使用される段階的な選択方法の 1 つは直接選択として知られており、次のように機能します。
ステップ 1:予測変数を使用せずに切片のみの回帰モデルを近似します。モデルの AIC *値を計算します。
ステップ 2:考えられるすべての 1 予測子回帰モデルを当てはめます。 AIC が最も低く、切片のみのモデルと比較して AIC が統計的に有意に減少したモデルを特定します。
ステップ 3:すべての回帰モデルを 2 つの可能な予測変数に当てはめます。最低の AIC を生成し、1 予測子モデルと比較して AIC が統計的に有意に減少したモデルを特定します。
より多くの予測変数を使用して回帰モデルをフィッティングしても、AIC が統計的に有意に減少しなくなるまで、このプロセスを繰り返します。
*回帰モデルの適合度を計算するために使用できる指標がいくつかあります (交差検証予測誤差、Cp、BIC、AIC、調整済みR2など)。以下の例では、AIC の使用を選択します。
次の例は、R で直接選択を実行する方法を示しています。
例: R での直接選択
この例では、R に組み込まれているmtcars データセットを使用します。
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
応答変数としてmpg (ガロンあたりのマイル数) を使用し、データセット内の他の 10 個の変数を潜在的な予測変数として使用して、重線形回帰モデルを近似します。
次のコードは、選択を段階的に実行する方法を示しています。
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform forward stepwise regression forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 ) #view results of forward stepwise regression forward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 31 1126.0472 115.94345 2 + wt -1 847.72525 30 278.3219 73.21736 3 + cyl -1 87.14997 29 191.1720 63.19800 4 + hp -1 14.55145 28 176.6205 62.66456 #view final model forward$coefficients (Intercept) wt cyl hp 38.7517874 -3.1669731 -0.9416168 -0.0180381
結果を解釈する方法は次のとおりです。
まず、切片のみのモデルを当てはめます。このモデルの AIC は115.94345でした。
次に、考えられるすべてのモデルを予測子に適合させます。最低の AIC を生成し、切片のみのモデルと比較して AIC が統計的に有意に減少したモデルは、 wt予測子を使用しました。このモデルの AIC は73.21736でした。
次に、考えられるすべてのモデルを 2 つの予測子で近似します。最も低い AIC を生成し、単一予測子モデルと比較して AIC が統計的に有意に減少したモデルには、 cyl予測子が追加されました。このモデルの AIC は63.19800でした。
次に、考えられるすべてのモデルを 3 つの予測子に当てはめます。最低の AIC を生成し、2 予測子モデルと比較して AIC が統計的に有意に減少したモデルには、 hp予測子が追加されました。このモデルの AIC は62.66456でした。
次に、考えられるすべてのモデルを 4 つの予測子に当てはめます。これらのモデルのいずれも AIC の大幅な減少をもたらさないことが判明したため、手順を中止しました。
したがって、最終的なモデルは次のようになります。
mpg = 38.75 – 3.17*重量 – 0.94*気筒 – 0.02*hyp
モデルに予測変数を追加しても、統計的に有意な AIC の削減にはつながらないことがわかりました。
したがって、最良のモデルは、wt、cyl、hp の 3 つの予測変数を持つモデルであると結論付けます。
AIC使用上の注意
前の例では、さまざまな回帰モデルの適合性を評価するためのメトリックとして AIC を使用することを選択しました。
AIC はAkaike Information Criterionの略で、次のように計算されます。
AIC = 2K – 2 ln (長さ)
金:
- K:モデルパラメータの数。
- ln (L) : モデルの対数尤度。これにより、モデルがデータに基づいている可能性がどの程度であるかがわかります。
ただし、交差検証予測誤差、Cp、BIC、AIC、または調整されたR2など、回帰モデルの適合性を評価するために使用することを選択できる他の指標もあります。
幸いなことに、ほとんどの統計ソフトウェアでは、直接選択するときに使用するメトリックを指定できます。
追加リソース
次のチュートリアルでは、回帰モデルに関する追加情報を提供します。