主成分回帰の概要


モデルの作成時に遭遇する最も一般的な問題の 1 つは、 多重共線性です。これは、データセット内の 2 つ以上の予測子変数の相関性が高い場合に発生します。

これが起こると、特定のモデルはトレーニング データ セットにうまく適合できる可能性がありますが、トレーニング セットに過剰適合するため、これまでに見たことのない新しいデータ セットではパフォーマンスが低下する可能性があります。

過学習を回避する 1 つの方法は、次のような何らかのタイプのサブセット選択方法を使用することです。

これらの方法では、応答変数の変動を予測できる最も重要な予測子だけが最終モデルに残るように、無関係な予測子をモデルから削除しようとします。

過学習を回避するもう 1 つの方法は、次のような何らかのタイプの正則化メソッドを使用することです。

これらの方法では、モデルの係数を制約または正規化して分散を削減し、新しいデータに対して適切に一般化できるモデルを生成しようとします。

多重共線性を処理するためのまったく異なるアプローチは、次元削減として知られています。

次元削減の一般的な方法は主成分回帰として知られており、次のように機能します。

1.指定されたデータセットp 個の予測子が含まれていると仮定します

2.元のp 個の予測子のM 個の線形結合として Z 1 , … , Z Mを計算します。

  • Z m = ΣΦ jm _
  • Z 1は、可能な限り多くの分散を捕捉する予測子の線形結合です。
  • Z 2 は、Z 1直交している (つまり、無相関である) 一方で、最も多くの分散を捕捉する予測子の次の線形結合です。
  • Z 3は、Z 2に直交しながら最大の分散を捕捉する予測子の次の線形結合になります。
  • 等々。

3.最小二乗法を使用して、最初のM個の主成分 Z 1 、…、Z M を予測子として使用して線形回帰モデルを近似します。

次元削減という用語は、この方法では p+1 個の係数ではなく M+1 個の係数のみを推定する必要があるという事実に由来しています (M < p)。

言い換えれば、問題の次元はp+1 から M+1 に削減されました。

データセットに多重共線性が存在する多くの場合、主成分回帰は、従来の多重線形回帰よりも適切に新しいデータに一般化できるモデルを生成できます。

主成分回帰を実行する手順

実際には、主成分回帰を実行するには次の手順が使用されます。

1. 予測変数を標準化します。

まず、通常、各予測変数の平均値が 0、標準偏差が 1 になるようにデータを標準化します。これにより、特に異なる単位で測定される場合 (c、つまり1の場合)、1 つの予測変数が大きな影響を与えることがなくなります。インチで測定されます)。 X 2はヤードで測定されます)。

2. 主成分を計算し、主成分を予測子として使用して線形回帰を実行します。

次に、主成分を計算し、最小二乗法を使用して、最初のM個の主成分 Z 1 、…、Z Mを予測子として使用して線形回帰モデルを近似します。

3. 保持する主要コンポーネントの数を決定します。

次に、k 分割交差検証を使用して、モデルに保持する主成分の最適な数を見つけます。保持する主成分の「最適な」数は、通常、テストの平均二乗誤差 (MSE) が最小になる数です。

主成分回帰の長所と短所

主成分回帰 (PCR) には次の利点があります。

  • PCR は、第一主成分が予測変数のほとんどの変動と応答変数との関係を捕捉できる場合に良好に実行される傾向があります。
  • PCR は、相互に直交する (つまり無相関の) 主成分を生成するため、予測変数の相関性が高い場合でも良好に実行できます。
  • PCR では、各主成分がすべての予測子変数の線形結合を使用するため、モデルから削除する予測子変数を選択する必要はありません。
  • PCR は、重線形回帰とは異なり、観測値よりも予測変数が多い場合に使用できます。

ただし、PCR には次のような欠点があります。

  • PCR は、どの主要コンポーネントを保持または削除するかを決定する際に、応答変数を考慮しません。代わりに、主成分によって取得される予測変数間の分散の大きさのみが考慮されます。場合によっては、差が最も大きい主成分が応答変数を適切に予測できない可能性があります。

実際には、多くの異なるタイプのモデル (PCR、Ridge、Lasso、多重線形回帰など) を適合させ、k 分割交差検証を使用して、新しいデータに対して最も低い MSE テストを生成するモデルを特定します。

元のデータセットに多重共線性が存在する場合 (これはよくあることです)、PCR は通常の最小二乗回帰よりも優れたパフォーマンスを発揮する傾向があります。ただし、いくつかの異なるモデルを当てはめて、目に見えないデータを最もよく一般化するモデルを特定することをお勧めします。

R と Python の主成分回帰

次のチュートリアルでは、R と Python で主成分回帰を実行する方法を示します。

R での主成分回帰 (ステップバイステップ)
Python での主成分回帰 (ステップバイステップ)

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です