Python で加重最小二乗回帰を実行する方法

によるベンジャミン・アンダーソン博士 7月 15, 2023 ガイド 0コメント

線形回帰の重要な前提の 1 つは、予測変数の各レベルで残差が等しい分散で分布しているということです。この仮定は等分散性として知られています。

この仮定が尊重されない場合、残差に不均一分散性が存在すると言われます。これが起こると、回帰結果は信頼できなくなります。

この問題を解決する 1 つの方法は、重み付き最小二乗回帰を使用することです。これは、誤差分散が小さい観測値には、より大きな誤差分散を持つ観測値と比較してより多くの情報が含まれるため、より多くの重みを受け取るように観測値に重みを割り当てます。

このチュートリアルでは、Python で加重最小二乗回帰を実行する方法を段階的に説明します。

ステップ 1: データを作成する

まず、クラスの 16 人の生徒の学習時間数と最終試験の成績に関する情報を含む次のパンダデータフレームを作成しましょう。

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' hours ': [1, 1, 2, 2, 2, 3, 4, 4, 4, 5, 5, 5, 6, 6, 7, 8],
                   ' score ': [48, 78, 72, 70, 66, 92, 93, 75, 75, 80, 95, 97,
                             90, 96, 99, 99]})

#view first five rows of DataFrame
print ( df.head ())

   hours score
0 1 48
1 1 78
2 2 72
3 2 70
4 2 66

ステップ 2: 単純な線形回帰モデルを当てはめる

次に、 statsmodelsモジュールの関数を使用して、予測変数として時間を使用し、応答変数としてスコアを使用する単純な線形回帰モデルを近似します。

 import statsmodels.api as sm

#define predictor and response variables
y = df[' score ']
X = df[' hours ']

#add constant to predictor variables
X = sm. add_constant (x)

#fit linear regression model
fit = sm. OLS (y,x). fit ()

#view model summary
print ( fit.summary ())

                            OLS Regression Results                            
==================================================== ============================
Dept. Variable: R-squared score: 0.630
Model: OLS Adj. R-squared: 0.603
Method: Least Squares F-statistic: 23.80
Date: Mon, 31 Oct 2022 Prob (F-statistic): 0.000244
Time: 11:19:54 Log-Likelihood: -57.184
No. Observations: 16 AIC: 118.4
Df Residuals: 14 BIC: 119.9
Model: 1                                         
Covariance Type: non-robust                                         
==================================================== ============================
                 coef std err t P>|t| [0.025 0.975]
-------------------------------------------------- ----------------------------
const 60.4669 5.128 11.791 0.000 49.468 71.465
hours 5.5005 1.127 4.879 0.000 3.082 7.919
==================================================== ============================
Omnibus: 0.041 Durbin-Watson: 1.910
Prob(Omnibus): 0.980 Jarque-Bera (JB): 0.268
Skew: -0.010 Prob(JB): 0.875
Kurtosis: 2.366 Cond. No. 10.5

モデルの概要から、モデルの R 二乗値が0.630であることがわかります。

関連:適切な R 二乗値とは何ですか?

ステップ 3: 重み付き最小二乗モデルを当てはめる

次に、 statsmodels WLS()関数を使用して、分散が小さい観測値の重みが大きくなるように重みを設定することで、重み付き最小二乗法を実行できます。

 #define weights to use
wt = 1/smf. ols (' fit.resid.abs() ~ fit.fittedvalues ', data=df). fit (). fitted values **2

#fit weighted least squares regression model
fit_wls = sm. WLS (y, X, weights=wt). fit ()

#view summary of weighted least squares regression model
print ( fit_wls.summary ())

                            WLS Regression Results                            
==================================================== ============================
Dept. Variable: R-squared score: 0.676
Model: WLS Adj. R-squared: 0.653
Method: Least Squares F-statistic: 29.24
Date: Mon, 31 Oct 2022 Prob (F-statistic): 9.24e-05
Time: 11:20:10 Log-Likelihood: -55.074
No. Comments: 16 AIC: 114.1
Df Residuals: 14 BIC: 115.7
Model: 1                                         
Covariance Type: non-robust                                         
==================================================== ============================
                 coef std err t P>|t| [0.025 0.975]
-------------------------------------------------- ----------------------------
const 63.9689 5.159 12.400 0.000 52.905 75.033
hours 4.7091 0.871 5.407 0.000 2.841 6.577
==================================================== ============================
Omnibus: 2,482 Durbin-Watson: 1,786
Prob(Omnibus): 0.289 Jarque-Bera (JB): 1.058
Skew: 0.029 Prob(JB): 0.589
Kurtosis: 1.742 Cond. No. 17.6
==================================================== ============================

結果から、この加重最小二乗モデルの R 二乗値が0.676に増加していることがわかります。

これは、加重最小二乗モデルの方が、単純な線形回帰モデルよりも試験得点の分散をより多く説明できることを示しています。

これは、単純な線形回帰モデルと比較して、加重最小二乗モデルの方がデータへの適合性が高いことを示しています。

追加リソース

次のチュートリアルでは、Python で他の一般的なタスクを実行する方法について説明します。

Python で残差プロットを作成する方法
 Python で QQ プロットを作成する方法
 Python で多重共線性をテストする方法

著者について

ベンジャミン・アンダーソン博士

私はベンジャミンです。退職した統計教授から、専任の Statorials 教育者になりました。統計分野における豊富な経験と専門知識を活かして、私は Statorials を通じて学生に力を与えるために自分の知識を共有することに尽力しています。もっと知る