段階的選抜とは何ですか? (説明と例)
機械学習の分野における私たちの目標は、一連の予測変数を効果的に使用して応答変数の値を予測できるモデルを作成することです。
p個の合計予測子変数のセットが与えられると、構築できる可能性のあるモデルが多数存在します。最適なモデルを選択するために使用できる 1 つの方法は、 最適サブセット選択として知られており、予測子のセットを使用して構築できるすべての可能なモデルから最適なモデルを選択しようとします。
残念ながら、この方法には次の 2 つの欠点があります。
- これは大量の計算を必要とする可能性があります。 p個の予測子変数のセットに対して、2 p個の可能なモデルが存在します。たとえば、10 個の予測変数がある場合、考慮すべきモデルは 2 10 = 1000 個あります。
- 非常に多くのモデルが考慮されるため、トレーニング データでは良好に実行されるが、将来のデータでは良好に実行されないモデルが見つかる可能性があります。これにより、 過剰適合が発生する可能性があります。
最適なサブセットを選択する代わりの方法は、段階的選択として知られており、はるかに小さいモデルのセットを比較します。
ステップの選択方法には、前ステップ選択と後ステップ選択の 2 種類があります。
段階的に進む選択
ステップバイステップの前方選択は次のように機能します。
1. M 0を予測変数を含まないヌル モデルとする。
2. k = 0、2、… p-1 の場合:
- 追加の予測子変数を使用して、M kの予測子を増加させるすべての pk モデルを近似します。
- これらの pk モデルの中から最適なものを選択し、それを M k+1と呼びます。 「最良」とは、R 2が最も高いモデル、または同等の RSS が最も低いモデルと定義します。
3.相互検証予測誤差、Cp、BIC、AIC、または調整された R 2を使用して、M 0 … M pから単一の最良のモデルを選択します。
段階的に後方選択
逆方向ステップの選択は次のように機能します。
1. M pを完全なモデルとし、 p 個のすべての予測変数を含みます。
2. k = p、p-1、… 1 の場合:
- Mkに 1 つを除くすべての予測子を含む k 個のモデルをすべて近似し、合計 k-1 個の予測子変数を求めます。
- これらの k 個のモデルの中から最適なものを選択し、それを M k-1と呼びます。 「最良」とは、R 2が最も高いモデル、または同等の RSS が最も低いモデルと定義します。
3.相互検証予測誤差、Cp、BIC、AIC、または調整された R 2を使用して、M 0 … M pから単一の最良のモデルを選択します。
「最適な」モデルを選択するための基準
段階的な順方向および逆方向の選択の最終ステップは、予測誤差が最も低いモデル、Cp が最も低いモデル、BIC が最も低いモデル、AIC low が最も高いモデル、または調整された R 2が最も高いモデルを選択することです。
これらの各指標の計算に使用される式は次のとおりです。
Cp: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
調整された R 2 : 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
金:
- d:予測子の数
- n:観測値の合計
- σ̂:回帰モデルの各応答測定に関連する誤差分散の推定値
- RSS:回帰モデルからの残差二乗和
- TSS:回帰モデルの総二乗和
段階的選択のメリットとデメリット
段階的選択には次の利点があります。
この方法は、最適なサブセットを選択するよりも計算効率が高くなります。 p 個の予測変数がある場合、最適なサブセットの選択は 2 pモデルに対応する必要があります。
逆に、段階的選択は 1+p(p+ 1)/2 モデルのみに適合する必要があります。 p = 10 の予測子変数の場合、最適なサブセット選択は 1,000 のモデルに適合する必要がありますが、段階的な選択は 56 のモデルにのみ適合する必要があります。
ただし、段階的選択には次のような潜在的な欠点があります。
考えられるすべての2pモデルの中から最適なモデルが見つかるとは限りません。
たとえば、p = 3 の予測子を含むデータセットがあるとします。可能な限り最良の 1 予測子モデルには x 1が含まれる可能性があり、可能な限り最良の 2 予測子モデルには代わりに x 1と x 2が含まれる場合があります。
この場合、前方段階的選択では、M 1に x 1が含まれるため、可能な限り最良の 2 予測子モデルを選択できません。そのため、M 2には x 1と別の変数も含まれている必要があります。