Python で goldfeld-quandt テストを実行する方法
Goldfeld-Quandt 検定は、回帰モデルに不均一分散性が存在するかどうかを判断するために使用されます。
不均一分散性とは、回帰モデルの応答変数のさまざまなレベルでの残差の不均一な分散を指します。
不均一分散が存在する場合、応答変数の各レベルで残差が均等に分散しているという線形回帰の重要な仮定の1 つに違反します。
このチュートリアルでは、Python で Goldfeld-Quandt テストを実行する方法のステップバイステップの例を提供します。
ステップ 1: データセットを作成する
この例では、クラスの 13 人の生徒が取得した学習時間、受けた予備試験、および最終試験の結果に関する情報を含む次のパンダ データフレームを作成してみましょう。
import pandas as pd #createDataFrame df = pd. DataFrame ({' hours ': [1, 2, 2, 4, 2, 1, 5, 4, 2, 4, 4, 3, 6], ' exams ': [1, 3, 3, 5, 2, 2, 1, 1, 0, 3, 4, 3, 2], ' score ': [76, 78, 85, 88, 72, 69, 94, 94, 88, 92, 90, 75, 96]}) #view DataFrame print (df) hours exam score 0 1 1 76 1 2 3 78 2 2 3 85 3 4 5 88 4 2 2 72 5 1 2 69 6 5 1 94 7 4 1 94 8 2 0 88 9 4 3 92 10 4 4 90 11 3 3 75 12 6 2 96
ステップ 2: 線形回帰モデルを当てはめる
次に、時間と試験を予測変数として使用し、スコアを応答変数として使用して重線形回帰モデルを近似します。
import statsmodels. api as sm
#define predictor and response variables
y = df[' score ']
x = df[[' hours ', ' exams ']]
#add constant to predictor variables
x = sm. add_constant (x)
#fit linear regression model
model = sm. OLS (y,x). fit ()
#view model summary
print ( model.summary ())
OLS Regression Results
==================================================== ============================
Dept. Variable: R-squared score: 0.718
Model: OLS Adj. R-squared: 0.661
Method: Least Squares F-statistic: 12.70
Date: Mon, 31 Oct 2022 Prob (F-statistic): 0.00180
Time: 09:22:56 Log-Likelihood: -38.618
No. Observations: 13 AIC: 83.24
Df Residuals: 10 BIC: 84.93
Model: 2
Covariance Type: non-robust
==================================================== ============================
coef std err t P>|t| [0.025 0.975]
-------------------------------------------------- ----------------------------
const 71.4048 4.001 17.847 0.000 62.490 80.319
hours 5.1275 1.018 5.038 0.001 2.860 7.395
exams -1.2121 1.147 -1.057 0.315 -3.768 1.344
==================================================== ============================
Omnibus: 1,103 Durbin-Watson: 1,248
Prob(Omnibus): 0.576 Jarque-Bera (JB): 0.803
Skew: -0.289 Prob(JB): 0.669
Kurtosis: 1.928 Cond. No. 11.7
==================================================== ============================
ステップ 3: Goldfeld-Quandt テストを実行する
次に、 statsmodels het_goldfeldquandt()関数を使用して、Goldfeld-Quandt テストを実行します。
注: Goldfeld-Quandt テストは、データ セットの中心にある多数の観測値を削除し、残差の分布が、中央の観測値の両側に結合する 2 つの結果のデータ セットと異なるかどうかをテストすることによって機能します。
通常、合計観測値の約 20% を削除することを選択します。この場合、 drop引数を使用して、観測値の 20% を削除することを指定できます。
#perform Goldfeld-Quandt test sm. stats . diagnosis . het_goldfeldquandt (y, x, drop= 0.2 ) (1.7574505407790355, 0.38270288684680076, 'increasing')
結果を解釈する方法は次のとおりです。
- 検定統計量は1.757です。
- 対応する p 値は0.383です。
Goldfeld-Quandt 検定では、次の帰無仮説と対立仮説が使用されます。
- Null (H 0 ) : 等分散性が存在します。
- 代替 ( HA ):不均一分散性が存在します。
p 値は 0.05 未満ではないため、帰無仮説を棄却できません。
不均一分散性が回帰モデルの問題であると主張する十分な証拠はありません。
次はどうする
Goldfeld-Quandt 検定の帰無仮説を棄却できなかった場合、不均一分散性は存在しないため、元の回帰の結果の解釈に進むことができます。
ただし、帰無仮説を棄却した場合は、データに不均一分散性が存在することを意味します。この場合、回帰出力テーブルに表示される標準誤差は信頼できない可能性があります。
この問題を解決するには、次のような一般的な方法がいくつかあります。
1. 応答変数を変換します。
応答変数に対して変換を実行してみることができます。たとえば、応答変数の対数、平方根、立方根を取得します。一般に、これにより不均一分散性が消失する可能性があります。
2. 重み付け回帰を使用します。
重み付き回帰では、近似値の分散に基づいて各データ ポイントに重みが割り当てられます。基本的に、これにより、分散が大きいデータ ポイントに低い重みが与えられ、残差二乗が減少します。
適切な重みを使用すると、重み付き回帰によって不均一分散性の問題を解決できます。
追加リソース
次のチュートリアルでは、Python で他の一般的な操作を実行する方法について説明します。
Python で OLS 回帰を実行する方法
Python で残差プロットを作成する方法
Python で White のテストを実行する方法
Python で Breusch-Pagan テストを実行する方法