マローズとは何ですか? cp? (定義と例)
Mallows Cp は、いくつかの異なるモデルの中から最適な回帰モデルを選択するために使用されるメトリックです。
次のように計算されます。
Cp = RSS p /S 2 – N + 2(P+1)
金:
- RSS p : p 個の予測子変数を持つモデルの残差二乗和
- S 2 : モデルの残差平均二乗 (MSE によって推定)
- N:サンプルサイズ
- P:予測変数の数
Mallows Cp は、回帰モデルで使用したい潜在的な予測変数がいくつかあり、これらの予測変数のサブセットを使用する最適なモデルを特定したい場合に使用されます。
P+1 未満の最小 Cp 値を持つモデルを特定することで、「最良の」回帰モデルを特定できます。ここで、P はモデル内の予測子変数の数です。
次の例は、Mallows の Cp を使用して、いくつかの潜在的なモデルから最適な回帰モデルを選択する方法を示しています。
例: Mallows Cp を使用した最適なモデルの選択
教授が、学習時間、受けた予備試験、および現在の累積 GPA を回帰モデルの予測変数として使用して、最終試験で学生が受け取る成績を予測したいとします。
7 つの異なる回帰モデルに適合し、各モデルの Mallows Cp 値を計算します。
マローズの Cp の値がモデル係数の数 (P+1) より小さい場合、モデルには偏りがないと言われます。
2 つの公平なモデルがあることがわかります。
- 予測変数として時間と GPA を使用したモデル (Mallows の Cp = 2.9、P+1 = 3)
- プレップ試験と GPA を予測変数としたモデル (Mallows の Cp = 2.7、P+1 = 3)
これら 2 つのモデルのうち、予備試験と GPA を予測変数として使用するモデルは、Mallows の Cp の値が最も低く、バイアスが最小になる優れたモデルであることがわかります。
Cp des mauves についてのメモ
Mallows Cp について留意すべき点は次のとおりです。
- Mallows Cp 値が P+1 に近いモデルは、バイアスが低いと言われます。
- 各潜在モデルのマローズ Cp 値が高い場合、これは、いくつかの重要な予測変数が各モデルから欠落している可能性があることを示します。
- いくつかの潜在的なモデルの Mallow’s Cp の値が低い場合は、使用する最適なモデルとして最も低い値を持つモデルを選択します。
また、Mallows の Cp は回帰モデルの適合度を測定する 1 つの方法にすぎないことにも留意してください。
もう 1 つの一般的に使用される尺度は、調整済み R 二乗です。これは、使用される予測子変数の数に合わせて調整された、モデル内の予測子変数によって説明できる応答変数の分散の割合を示します。
いくつかの異なるモデルのリストからどの回帰モデルが最適であるかを判断するには、Mallows の Cp と調整済み R 二乗の両方を確認することをお勧めします。