部分最小二乗法の概要


機械学習で遭遇する最も一般的な問題の 1 つは、 多重共線性です。これは、データセット内の 2 つ以上の予測子変数の相関性が高い場合に発生します。

これが起こると、モデルはトレーニング データ セットにうまく適合できるかもしれませんが、トレーニング データ セットに過剰適合するため、これまでに見たことのない新しいデータ セットではパフォーマンスが低下する可能性があります。トレーニングセット。

多重共線性の問題を回避する 1 つの方法は、主成分回帰を使用することです。これは、元のp 個の予測子変数のM個の線形結合 (「主成分」と呼ばれます) を計算し、最小二乗法を使用して、主成分を使用して線形回帰のモデルを近似します。予測子としてのコンポーネント。

主成分回帰 (PCR) の欠点は、主成分を計算するときに応答変数が考慮されないことです。

代わりに、主成分によって取得される予測変数間の分散の大きさのみが考慮されます。このため、場合によっては、偏差が最も大きい主成分が応答変数を適切に予測できない可能性があります。

PCR に関連する手法は、部分最小二乗法として知られています。 PCR と同様に、部分最小二乗では、元のp 個の予測子変数のM 個の線形結合 (「PLS コンポーネント」と呼ばれる) が計算され、最小二乗法を使用して、PLS コンポーネントを予測子として使用して線形回帰モデルを近似します。

ただし、PCR とは異なり、部分最小二乗法では、応答変数と予測変数の両方の変動を説明する線形結合を見つけようとします。

部分最小二乗法を実行する手順

実際には、部分最小二乗法を実行するには次の手順が使用されます。

1.すべての予測変数と応答変数の平均が 0、標準偏差が 1 になるようにデータを標準化します。これにより、各変数が同じスケールで測定されることが保証されます。

2.元のp 個の予測子のM 個の線形結合として Z 1 , … , Z Mを計算します。

  • Z m = ΣΦ jm _
  • Z 1を計算するには、Φ j1 をX に対する Y の単純線形回帰の係数に等しく設定します。 jは、可能な限り多くの分散を捕捉する予測子の線形結合です。
  • Z 2を計算するには、Z 1で各変数を回帰し、残差を取得します。次に、Z 1を計算したのとまったく同じ方法で、この直交化データを使用して Z 2を計算します。
  • このプロセスをM回繰り返して、 M 個のPLS コンポーネントを取得します。

3.最小二乗法を使用して、PLS コンポーネント Z 1 、…、Z Mを予測子として使用して線形回帰モデルを近似します。

4.最後に、 k 分割交差検証を使用して、モデルに保持する PLS コンポーネントの最適な数を見つけます。保持する PLS コンポーネントの「最適な」数は、通常、テスト平均二乗誤差 (MSE) が最小になる数です。

結論

データセットに多重共線性が存在する場合、部分最小二乗回帰は通常の最小二乗回帰よりも優れたパフォーマンスを発揮する傾向があります。ただし、いくつかの異なるモデルを当てはめて、目に見えないデータを最もよく一般化するモデルを特定することをお勧めします。

実際には、多くの異なるタイプのモデル (PLS、 PCRRidgeLasso重線形回帰など) をデータセットに適合させ、k 分割交差検証を使用して MSE テストを最適に生成するモデルを特定します。新しいデータでは低くなります。 。

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です