ダミー変数トラップとは何ですか? (定義&例)
線形回帰は、1 つ以上の予測変数と応答変数の間の関係を定量化するために使用できる方法です。
通常、 量的変数を使用した線形回帰を使用します。 「数値」変数とも呼ばれるこれらは、測定可能な量を表す変数です。例としては次のものが挙げられます。
- 家の平方フィート数
- 都市の人口規模
- 個人の年齢
ただし、場合によっては、カテゴリ変数を予測変数として使用したいことがあります。これらは名前またはラベルを取り、カテゴリに分類できる変数です。例としては次のものが挙げられます。
- 目の色(例:「青」、「緑」、「茶色」)
- 性別(例:「男性」、「女性」)
- 婚姻状況(例:「既婚」、「独身」、「離婚」)
カテゴリカル変数を使用する場合、「青」、「緑」、「茶色」などの値に 1、2、3 のような値を割り当てるだけでは意味がありません。その緑は二重です。青や茶色と同じくらいカラフルな色は、青の 3 倍カラフルです。
代わりに、ダミー変数を使用することが解決策です。これらは回帰分析専用に作成される変数で、0 または 1 の 2 つの値のいずれかをとります。
作成する必要があるダミー変数の数はk -1 に等しくなります。ここで、 kはカテゴリ変数が取ることができるさまざまな値の数です。
たとえば、次のデータセットがあり、婚姻状況と年齢を使用して収入を予測したいとします。
婚姻状況を回帰モデルの予測変数として使用するには、それをダミー変数に変換する必要があります。
これは現在、3 つの異なる値 (「独身」、「既婚」、または「離婚」) を取ることができるカテゴリ変数であるため、 k -1 = 3-1 = 2 個のダミー変数を作成する必要があります。
このダミー変数を作成するには、最も頻繁に表示される「Single」を基本値としてそのままにしておきます。したがって、婚姻状況をダミー変数に変換する方法は次のとおりです。
その後、回帰モデルの予測変数としてAge 、 Married 、 Divorcedを使用できます。
ダミー変数を作成するときに発生する可能性のある問題は、ダミー変数トラップとして知られています。これは、 k -1 個のダミー変数の代わりにk個のダミー変数を作成したときに発生します。
これが起こると、少なくとも 2 つのダミー変数が完全な多重共線性の影響を受けることになります。言い換えれば、それらは完全に相関します。これにより、回帰係数とそれに対応する p 値の計算が不正確になります。
ダミー変数トラップ:作成されるダミー変数の数が、カテゴリ値が取り得る値の数と等しい場合。これにより多重共線性が生じ、回帰係数と p 値の計算が不正確になります。
たとえば、婚姻状況を次のダミー変数に変換するとします。
この場合、独身と既婚は完全に相関しており、相関係数は -1 です。
したがって、重回帰を実行すると、回帰係数の計算が不正確になります。
ダミー変数トラップを回避する方法
ダミー変数の罠を避けるために覚えておく必要があるルールは 1 つだけです。
カテゴリ変数がk 個の異なる値を取ることができる場合は、回帰モデルで使用するk-1 個のダミー変数のみを作成する必要があります。
たとえば、カテゴリ変数「学年」をダミー変数に変換するとします。この変数が次の値を取ると仮定します。
- 初年度の学生
- 2年生
- ジュニア
- シニア
この変数は 4 つの異なる値を取ることができるため、3 つのダミー変数のみを作成します。たとえば、ダミー変数は次のようになります。
- 2 年生の場合はX 1 = 1。それ以外の場合は 0
- ジュニアの場合はX 2 = 1。それ以外の場合は 0
- X 3 = 1 イチイシニア;それ以外の場合は 0
ダミー変数の数は「学年」が取り得る値の数より1つ少ないため、ダミー変数の罠や多重共線性問題を回避できます。