Como obter o resumo do modelo de regressão do scikit-learn

By Dr. benjamim anderson Julho 19, 2023 Guia 0 Comments

Muitas vezes você pode querer extrair um resumo de um modelo de regressão criado usando o scikit-learn em Python.

Infelizmente, o scikit-learn não oferece muitas funções integradas para analisar o resumo de um modelo de regressão, pois geralmente é usado apenas para fins preditivos .

Portanto, se quiser obter um resumo de um modelo de regressão em Python, você tem duas opções:

1. Use as funções limitadas do scikit-learn.

2. Em vez disso, use modelos estatísticos .

Os exemplos a seguir mostram como usar cada método na prática com o seguinte DataFrame do pandas:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' x1 ': [1, 2, 2, 4, 2, 1, 5, 4, 2, 4, 4],
                   ' x2 ': [1, 3, 3, 5, 2, 2, 1, 1, 0, 3, 4],
                   ' y ': [76, 78, 85, 88, 72, 69, 94, 94, 88, 92, 90]})

#view first five rows of DataFrame
df. head ()

       x1 x2 y
0 1 1 76
1 2 3 78
2 2 3 85
3 4 5 88
4 2 2 72

Método 1: Obtenha o resumo do modelo de regressão do Scikit-Learn

Podemos usar o seguinte código para ajustar um modelo de regressão linear múltipla usando o scikit-learn:

 from sklearn. linear_model import LinearRegression

#initiate linear regression model
model = LinearRegression()

#define predictor and response variables
x, y = df[[' x1 ', ' x2 ']], df. y

#fit regression model
model. fit (x,y)

Podemos então usar o seguinte código para extrair os coeficientes de regressão do modelo, bem como o valor R ao quadrado do modelo:

 #display regression coefficients and R-squared value of model
print (model. intercept_ , model. coef_ , model. score (X, y))

70.4828205704 [5.7945 -1.1576] 0.766742556527

Usando esta saída, podemos escrever a equação para o modelo de regressão ajustado:

y = 70,48 + 5,79x ₁ – 1,16x ₂

Pode-se observar também que o valor R ² do modelo é 76,67.

Isso significa que 76,67% da variação da variável resposta pode ser explicada pelas duas variáveis preditoras do modelo.

Embora este resultado seja útil, ainda não conhecemos a estatística F geral do modelo, os valores p dos coeficientes de regressão individuais e outras medidas úteis que podem nos ajudar a entender quão bem o modelo se ajusta ao modelo. conjunto de dados.dataset.

Método 2: obter o resumo do modelo de regressão em Statsmodels

Se você deseja extrair um resumo de um modelo de regressão em Python, é melhor usar o pacote statsmodels .

O código a seguir mostra como usar este pacote para ajustar o mesmo modelo de regressão linear múltipla do exemplo anterior e extrair o resumo do modelo:

 import statsmodels. api as sm

#define response variable
y = df[' y ']

#define predictor variables
x = df[[' x1 ', ' x2 ']]

#add constant to predictor variables
x = sm. add_constant (x)

#fit linear regression model
model = sm. OLS (y,x). fit ()

#view model summary
print ( model.summary ())

                            OLS Regression Results                            
==================================================== ============================
Dept. Variable: y R-squared: 0.767
Model: OLS Adj. R-squared: 0.708
Method: Least Squares F-statistic: 13.15
Date: Fri, 01 Apr 2022 Prob (F-statistic): 0.00296
Time: 11:10:16 Log-Likelihood: -31.191
No. Comments: 11 AIC: 68.38
Df Residuals: 8 BIC: 69.57
Df Model: 2                                         
Covariance Type: non-robust                                         
==================================================== ============================
                 coef std err t P>|t| [0.025 0.975]
-------------------------------------------------- ----------------------------
const 70.4828 3.749 18.803 0.000 61.839 79.127
x1 5.7945 1.132 5.120 0.001 3.185 8.404
x2 -1.1576 1.065 -1.087 0.309 -3.613 1.298
==================================================== ============================
Omnibus: 0.198 Durbin-Watson: 1.240
Prob(Omnibus): 0.906 Jarque-Bera (JB): 0.296
Skew: -0.242 Prob(JB): 0.862
Kurtosis: 2.359 Cond. No. 10.7
==================================================== ============================

Observe que os coeficientes de regressão e o valor de R ao quadrado correspondem aos calculados pelo scikit-learn, mas também temos muitas outras métricas úteis para o modelo de regressão.

Por exemplo, podemos ver os valores p para cada variável preditora individual:

valor p para x ₁ = 0,001
valor p para x ₂ = 0,309

Também podemos ver a estatística F geral do modelo, o valor R-quadrado ajustado , o valor AIC do modelo e muito mais.

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras operações comuns em Python:

Como realizar regressão linear simples em Python
Como realizar regressão linear múltipla em Python
Como calcular AIC de modelos de regressão em Python

About Author

Dr. benjamim anderson

Olá, sou Benjamin, um professor aposentado de estatística que se tornou professor dedicado na Statorials. Com vasta experiência e conhecimento na área de estatística, estou empenhado em compartilhar meu conhecimento para capacitar os alunos por meio de Statorials. Saber mais

Método 1: Obtenha o resumo do modelo de regressão do Scikit-Learn

Método 2: obter o resumo do modelo de regressão em Statsmodels

Recursos adicionais

About Author

Dr. benjamim anderson

Add a Comment