7 つの一般的なタイプの回帰 (およびそれらをいつ使用するか)
回帰分析は、統計で最も一般的に使用される手法の 1 つです。
回帰分析の基本的な目標は、1 つ以上の予測変数と応答変数の間の関係を最もよく表すモデルを適合させることです。
この記事では、実生活で最も一般的に使用される 7 つの回帰モデルと、各種類の回帰をいつ使用するかについて説明します。
1. 線形回帰
線形回帰は、1 つ以上の予測変数と数値応答変数の間の関係を記述する回帰モデルを近似するために使用されます。
次の場合に使用します。
- 予測変数と応答変数の間の関係はかなり線形です。
- 応答変数は連続数値変数です。
例:小売会社は、広告費を使用して線形回帰モデルを当てはめて総売上高を予測できます。
これら 2 つの変数間の関係は線形である可能性が高く (通常、広告に費やされる金額が多いほど売上も増加します)、応答変数 (総売上高) は連続数値変数であるため、線形回帰モデルを調整することは理にかなっています。
リソース:重線形回帰の概要
2. ロジスティック回帰
ロジスティック回帰は、1 つ以上の予測変数とバイナリ応答変数の間の関係を記述する回帰モデルを近似するために使用されます。
次の場合に使用します。
- 応答変数はバイナリです。2 つの値のみを取ることができます。
例:医学研究者は、運動と喫煙の習慣を使用してロジスティック回帰モデルを当てはめて、個人が心臓発作を起こす可能性を予測できます。
応答変数 (心臓発作) はバイナリ (個人が心臓発作を経験するかしないか) であるため、ロジスティック回帰モデルを当てはめるのが適切です。
リソース: ロジスティック回帰の概要
3. 多項式回帰
多項式回帰は、1 つ以上の予測子変数と数値応答変数の間の関係を記述する回帰モデルを近似するために使用されます。
次の場合に使用します。
- 予測変数と応答変数の間の関係は非線形です。
- 応答変数は連続数値変数です。
例:心理学者は、「労働時間」を使用して多項式回帰を当てはめ、特定の業界の従業員の「全体的な幸福度」を予測できます。
これら 2 つの変数間の関係はおそらく非線形です。つまり、労働時間数が増加するにつれて、個人はより高い幸福感を報告する可能性がありますが、一定の労働時間を超えると、全体的な幸福度は低下する可能性が高くなります。予測変数と応答変数の間のこの関係は非線形であるため、多項式回帰モデルを当てはめることは理にかなっています。
リソース:多項式回帰の概要
4. リッジ回帰
リッジ回帰は、1 つ以上の予測子変数と数値応答変数の間の関係を記述する回帰モデルを近似するために使用されます。
次の場合に使用します。
- 予測変数は相関性が高く、 多重共線性が問題になります。
- 応答変数は連続数値変数です。
例:バスケットボールのデータ サイエンティストは、ポイント、アシスト、リバウンドなどの予測変数を使用してリッジ回帰モデルを当てはめて、選手の給与を予測するとします。
より優れたプレーヤーはより多くのポイント、アシスト、リバウンドを獲得する傾向があるため、予測変数は高度に相関している可能性があります。したがって、多重共線性が問題になる可能性が高いため、リッジ回帰を使用することでこの問題を最小限に抑えることができます。
リソース:リッジ回帰の概要
5.なげなわ回帰
ラッソ回帰はリッジ回帰に非常に似ており、1 つ以上の予測子変数と数値応答変数の間の関係を記述する回帰モデルを近似するために使用されます。
次の場合に使用します。
- 予測変数は相関性が高く、 多重共線性が問題になります。
- 応答変数は連続数値変数です。
例:経済学者は、世帯収入を予測するために、総就学年数、労働時間、生活費などの予測変数を使用してなげなわ回帰モデルを当てはめる可能性があります。
高学歴の人は生活費が高い都市に住み、より多くの時間働く傾向があるため、予測変数はおそらく高度に相関していると考えられます。したがって、多重共線性が問題になる可能性が高いため、ラッソ回帰を使用してこの問題を最小限に抑えることができます。
ラッソ回帰とリッジ回帰は非常に似ていることに注意してください。データセット内で多重共線性が問題になる場合は、Lasso 回帰モデルと Ridge 回帰モデルの両方を当てはめて、どちらのモデルが最も効果的かを確認することをお勧めします。
リソース:ラッソ回帰の概要
6. ポアソン回帰
ポアソン回帰は、1 つ以上の予測変数と応答変数の間の関係を記述する回帰モデルを近似するために使用されます。
次の場合に使用します。
- 応答変数は「カウント」データです。たとえば、1 週間あたりの晴れの日の数、年間の交通事故の数、1 日あたりの電話の数などです。
例:大学はポアソン回帰を使用して、プログラム入学時の GPA と性別に基づいて、特定の大学プログラムを卒業する学生の数を調べることができます。
この場合、応答変数はカウント データ (卒業生の数 – 200、250、300、413 人など) であるため、ポアソン回帰を使用するのが適切です。
リソース:ポアソン回帰の概要
7. 分位点回帰
分位回帰は、1 つ以上の予測変数と応答変数の間の関係を記述する回帰モデルを近似するために使用されます。
次の場合に使用します。
- 応答変数の特定の分位数またはパーセンタイル (たとえば、90 パーセンタイル、95 パーセンタイルなど) を推定したいと考えています。
例:教授は分位回帰を使用して、学習時間数に基づいて予想される試験得点の 90 パーセンタイルを予測できます。
この場合、教授は応答変数 (試験の得点) の特定のパーセンタイルを予測したいため、分位回帰を使用するのが適切です。
リソース:分位点回帰の概要
追加リソース
現実の生活で線形回帰を使用する 4 つの例
現実の生活でロジスティック回帰を使用する 4 つの例
ANOVA と回帰: 違いは何ですか?
完全ガイド: 回帰結果を報告する方法