線形回帰を使用して予測を行う方法
線形回帰は、1 つ以上の予測変数と応答変数の間の関係を定量化するために使用できる方法です。
回帰モデルをフィッティングする最も一般的な理由の 1 つは、モデルを使用して新しい観測値を予測することです。
回帰モデルを使用して予測を行うには、次の手順を使用します。
- ステップ 1:データを収集します。
- ステップ 2:回帰モデルをデータに適合させます。
- ステップ 3:モデルがデータに適合していることを確認します。
- ステップ 4:適合した回帰式を使用して、新しい観測値の値を予測します。
次の例は、回帰モデルを使用して予測を行う方法を示しています。
例 1: 単純な線形回帰モデルを使用した予測の作成
医師が 50 人の患者の身長 (インチ) と体重 (ポンド) のデータを収集すると仮定します。
次に、「体重」を予測変数として、「身長」を応答変数として使用して、単純な線形回帰モデルを近似します。
近似された回帰式は次のとおりです。
サイズ = 32.7830 + 0.2001*(重量)
線形回帰モデルの仮定が満たされていることを確認した後、医師はモデルがデータによく適合していると結論付けます。
その後、モデルを使用して、新規患者の体重に基づいて身長を予測できます。
たとえば、新患の体重が 170 ポンドだとします。このモデルを使用すると、この患者の身長は 66.8 インチであると予測されます。
高さ = 32.7830 + 0.2001*(170) = 66.8 インチ
例 2: 重線形回帰モデルを使用した予測の作成
経済学者が 30 人の合計教育年数、週の労働時間、年収に関するデータを収集すると仮定します。
次に、「総教育年数」と「週の労働時間」を予測変数として、「年収」を応答変数として使用して重線形回帰モデルを当てはめます。
近似された回帰式は次のとおりです。
収入 = 1,342.29 + 3,324.33*(就学年数) + 765.88*(週の労働時間)
経済学者は、線形回帰モデルの前提が満たされていることを確認した後、モデルがデータによく適合していると結論付けます。
次に、モデルを使用して、教育の合計年数と週の労働時間に基づいて、新しい個人の年収を予測できます。
たとえば、新人が合計 16 年間の教育を受け、週に平均 40 時間働くとします。このモデルを使用すると、この人の年収は 85,166.77 ドルになると予測されます。
収入 = 1,342.29 + 3,324.33*(16) + 765.88*(45) = 85,166.77 ドル
信頼区間の使用について
回帰モデルを使用して新しい観測値について予測を行う場合、回帰モデルによって予測される値は点推定と呼ばれます。
点推定値は新しい観測値の最良の推定値を表しますが、新しい観測値と正確に一致する可能性は低いです。
したがって、この不確実性を捉えるために、信頼区間、つまり一定の信頼レベルを持つ母集団パラメータが含まれる可能性が高い値の範囲を作成できます。
たとえば、新しい人の身長が 66.8 インチになると予測する代わりに、次の信頼区間を作成できます。
95% 信頼区間 = [64.8 インチ, 68.8 インチ]
この間隔は、この個人の実際の身長が 64.8 インチから 68.8 インチの間にあることを 95% 確信していることを意味すると解釈します。
予測を行う際の注意点
回帰モデルを使用して予測を行う場合は、次の点に留意してください。
1. モデルは、回帰モデルの推定に使用されるデータの範囲内で予測を行うためにのみ使用してください。
たとえば、予測変数「体重」を使用して回帰モデルを近似しており、モデルの推定に使用したサンプル内の個人の体重が 120 ~ 180 ポンドだったとします。
体重 200 ポンドの個人の身長を推定するためにモデルを使用することは無効です。これは、モデルの推定に使用した予測変数の範囲外であるためです。
120 ~ 180 ポンドの範囲外では、体重と身長の関係が異なる可能性があります。したがって、体重 200 ポンドの個人の身長を推定するためにモデルを使用すべきではありません。
2. モデルは、サンプリングした母集団を予測するためにのみ使用します。
たとえば、経済学者が特定の都市に住むすべての人々のサンプルから人口を抽出したとします。
モデルの適合に使用されたサンプル全体がこの都市に住んでいたため、適合回帰モデルはこの都市の個人の年収を予測する場合にのみ使用する必要があります。