主成分回帰の概要

によるベンジャミン・アンダーソン博士 7月 27, 2023 ガイド 0コメント

モデルの作成時に遭遇する最も一般的な問題の 1 つは、多重共線性です。これは、データセット内の 2 つ以上の予測子変数の相関性が高い場合に発生します。

これが起こると、特定のモデルはトレーニングデータセットにうまく適合できる可能性がありますが、トレーニングセットに過剰適合するため、これまでに見たことのない新しいデータセットではパフォーマンスが低下する可能性があります。

過学習を回避する 1 つの方法は、次のような何らかのタイプのサブセット選択方法を使用することです。

これらの方法では、応答変数の変動を予測できる最も重要な予測子だけが最終モデルに残るように、無関係な予測子をモデルから削除しようとします。

過学習を回避するもう 1 つの方法は、次のような何らかのタイプの正則化メソッドを使用することです。

これらの方法では、モデルの係数を制約または正規化して分散を削減し、新しいデータに対して適切に一般化できるモデルを生成しようとします。

多重共線性を処理するためのまったく異なるアプローチは、次元削減として知られています。

次元削減の一般的な方法は主成分回帰として知られており、次のように機能します。

1.指定されたデータ_セットにp 個の_予測子が含まれていると仮定します_。

2.元のp 個の予測子のM 個の線形結合として Z ₁ , … , Z _Mを計算します。

3.最小二乗法を使用して、最初のM個の主成分 Z ₁ 、…、Z _{M を}予測子として使用して線形回帰モデルを近似します。

次元削減という用語は、この方法では p+1 個の係数ではなく M+1 個の係数のみを推定する必要があるという事実に由来しています (M < p)。

言い換えれば、問題の次元はp+1 から M+1 に削減されました。

データセットに多重共線性が存在する多くの場合、主成分回帰は、従来の多重線形回帰よりも適切に新しいデータに一般化できるモデルを生成できます。

実際には、主成分回帰を実行するには次の手順が使用されます。

1. 予測変数を標準化します。

まず、通常、各予測変数の平均値が 0、標準偏差が 1 になるようにデータを標準化します。これにより、特に異なる単位で測定される場合 (c、つまり₁の場合)、1 つの予測変数が大きな影響を与えることがなくなります。インチで測定されます)。 X ₂はヤードで測定されます)。

2. 主成分を計算し、主成分を予測子として使用して線形回帰を実行します。

次に、主成分を計算し、最小二乗法を使用して、最初のM個の主成分 Z ₁ 、…、Z _Mを予測子として使用して線形回帰モデルを近似します。

3. 保持する主要コンポーネントの数を決定します。

次に、k 分割交差検証を使用して、モデルに保持する主成分の最適な数を見つけます。保持する主成分の「最適な」数は、通常、テストの平均二乗誤差 (MSE) が最小になる数です。

主成分回帰 (PCR) には次の利点があります。

ただし、PCR には次のような欠点があります。

PCR は、どの主要コンポーネントを保持または削除するかを決定する際に、応答変数を考慮しません。代わりに、主成分によって取得される予測変数間の分散の大きさのみが考慮されます。場合によっては、差が最も大きい主成分が応答変数を適切に予測できない可能性があります。

実際には、多くの異なるタイプのモデル (PCR、Ridge、Lasso、多重線形回帰など) を適合させ、k 分割交差検証を使用して、新しいデータに対して最も低い MSE テストを生成するモデルを特定します。

元のデータセットに多重共線性が存在する場合 (これはよくあることです)、PCR は通常の最小二乗回帰よりも優れたパフォーマンスを発揮する傾向があります。ただし、いくつかの異なるモデルを当てはめて、目に見えないデータを最もよく一般化するモデルを特定することをお勧めします。

次のチュートリアルでは、R と Python で主成分回帰を実行する方法を示します。

私はベンジャミンです。退職した統計教授から、専任の Statorials 教育者になりました。統計分野における豊富な経験と専門知識を活かして、私は Statorials を通じて学生に力を与えるために自分の知識を共有することに尽力しています。もっと知る