倹約モデルとは何ですか?
倹約的なモデルとは、できるだけ少ない説明変数を使用して、望ましいレベルの適合を達成するモデルです。
このタイプのモデルの背後にある推論は、最も単純な説明がおそらく正しいという オッカムのかみそりの考え方 (「倹約原則」とも呼ばれます) に由来しています。
統計に当てはめると、パラメータがほとんどなくても満足のいくレベルの適合を達成するモデルは、大量のパラメータを持ち、わずかに高いレベルの適合のみを達成するモデルよりも優先されるべきです。
これには 2 つの理由があります。
1. 節約モデルは解釈と理解が容易です。パラメータが少ないモデルは理解しやすく、説明しやすくなります。
2. 倹約的なモデルは、より高い予測能力を持つ傾向があります。パラメータが少ないモデルは、新しいデータに適用するとパフォーマンスが向上する傾向があります。
これらの考え方を説明するために、次の 2 つの例を考えてみましょう。
例 1: 倹約的なモデル = 簡単な解釈
不動産価格を予測するために、不動産関連の説明変数のセットを使用してモデルを構築したいとします。 R 二乗が調整された次の 2 つのモデルを考えてみましょう。
モデル 1:
- 計算式:住宅価格 = 8,830 + 81*(平方フィート)
- 調整後のR2 : 0.7734
モデル 2:
- 計算式:住宅価格 = 8,921 + 77*(平方フィート) + 7*(平方フィート) 2 – 9*(年齢) + 600*(寝室) + 38*(バス)
- 調整後のR2 : 0.7823
最初のモデルには説明変数が 1 つだけあり、調整後のR2は 0.7734 ですが、2 番目のモデルには 5 つの説明変数があり、調整後のR2 はわずかに高くなります。
倹約の原則に基づき、各モデルは住宅価格の変動を説明する能力がほぼ同じですが、最初のモデルの方が理解と説明がはるかに簡単であるため、最初のモデルを使用することを好みます。
たとえば、最初のモデルでは、住宅の平方フィートが 1 単位増加すると、平均住宅価格が 81 ドル上昇することがわかっています。理解して説明するのは簡単です。
ただし、2 番目の例では、係数推定値を解釈するのがはるかに困難です。たとえば、家の面積、築年数、バスルームの数が一定であると仮定すると、家の中に部屋が増えると、住宅価格が平均 600 ドル上昇します。理解して説明するのははるかに困難です。
例 2: 倹約的なモデル = より良い予測
また、倹約的なモデルは、元のデータ セットに過剰適合する可能性が低いため、新しいデータ セットに対してより正確な予測を行う傾向があります。
一般に、より多くのパラメーターを持つモデルは、より少ないパラメーターを持つモデルよりもより厳密な適合とより高い R 2値を生成します。残念ながら、モデルに含めるパラメーターが多すぎると、説明変数間の真の基礎的な関係ではなく、データのノイズ (または「ランダム性」) にモデルが適応してしまう可能性があります。そして応答変数。
これは、多くのパラメーターを含む非常に複雑なモデルは、パラメーターが少ない単純なモデルと比較して、これまでに見たことのない新しいデータセットではパフォーマンスが低下する可能性が高いことを意味します。
節約モデルの選び方
モデル選択のトピックに特化したコース全体が存在する可能性がありますが、基本的に、倹約的なモデルを選択するということは、メトリックに従って最高のパフォーマンスを発揮するモデルを選択することを意味します。
トレーニング データセットでのパフォーマンスとパラメーターの数に基づいてモデルを評価する、一般的に使用されるメトリクスには次のものがあります。
1. 赤池情報量基準 (AIC)
モデルの AIC は次のように計算できます。
AIC = -2/n * LL + 2 * k/n
金:
- n:トレーニング データセット内の観測値の数。
- LL:トレーニング データセット上のモデルの対数尤度。
- k:モデル内のパラメータの数。
この方法を使用すると、各モデルの AIC を計算し、AIC 値が最も低いモデルを最適なモデルとして選択できます。
このアプローチは、次の方法である BIC と比較して、より複雑なモデルを好む傾向があります。
2. ベイズ情報量基準 (BIC)
モデルの BIC は次のように計算できます。
BIC = -2 * LL + log(n) * k
金:
- n:トレーニング データセット内の観測値の数。
- log:自然対数 (底 e)
- LL:トレーニング データセット上のモデルの対数尤度。
- k:モデル内のパラメータの数。
この方法を使用すると、各モデルの BIC を計算し、BIC 値が最も低いモデルを最適なモデルとして選択できます。
このアプローチでは、AIC メソッドと比較してパラメーターが少ないモデルが好まれる傾向があります。
3. 最小記述長 (MDL)
MDL は、情報理論の分野からモデルを評価する方法です。次のように計算できます。
MDL = L(h) + L(D | h)
金:
- h:モデル。
- D:モデルによって行われた予測。
- L(h):モデルを表現するために必要なビット数。
- L(D | h):トレーニング データに対するモデルの予測を表すために必要なビット数。
この方法を使用すると、各モデルの MDL を計算し、MDL 値が最も低いモデルを最適なモデルとして選択できます。
取り組んでいる問題の種類に応じて、AIC、BIC、または MDL のいずれかの方法が、節約されたモデルを選択する他の方法よりも優先される場合があります。