Come risolvere il problema: i dati panda vengono convertiti nel tipo di oggetto numpy. controlla i dati di input con np.asarray(data).

Di Benjamin anderson Luglio 22, 2023 Guida 0 commenti

Un errore che potresti riscontrare quando usi Python è:

 ValueError : Pandas data cast to numpy dtype of object. Check input data with
np.asarray(data).

Questo errore si verifica quando si tenta di adattare un modello di regressione in Python e non si riesce a convertire le variabili categoriali in variabili fittizie prima di adattare il modello.

L’esempio seguente mostra come correggere questo errore nella pratica.

Come riprodurre l’errore

Supponiamo di avere i seguenti panda DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12],
                   ' points ': [14, 19, 8, 12, 17, 19, 22, 25]})

#view DataFrame
df

	team assists rebounds points
0 A 5 11 14
1 To 7 8 19
2 A 7 10 8
3 to 9 6 12
4 B 12 6 17
5 B 9 5 19
6 B 9 9 22
7 B 4 12 25

Supponiamo ora di provare ad adattare un modello di regressione lineare multipla utilizzando squadra, assist e rimbalzi come variabili predittive e punti come variabile di risposta :

 import statsmodels. api as sm

#define response variable
y = df['points']

#define predictor variables
x = df[['team', 'assists', 'rebounds']]

#add constant to predictor variables
x = sm. add_constant (x)

#attempt to fit regression model
model = sm. OLS (y,x). fit ()

ValueError : Pandas data cast to numpy dtype of object. Check input data with
np.asarray(data).

Riceviamo un errore perché la variabile “team” è categoriale e non l’abbiamo convertita in una variabile fittizia prima di adattarla al modello di regressione.

Come correggere l’errore

Il modo più semplice per correggere questo errore è convertire la variabile “team” in una variabile fittizia utilizzando la funzione pandas.get_dummies() .

Nota : dai un’occhiata a questo tutorial per un rapido aggiornamento sulle variabili fittizie nei modelli di regressione.

Il codice seguente mostra come convertire “team” in una variabile fittizia:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12],
                   ' points ': [14, 19, 8, 12, 17, 19, 22, 25]})

#convert "team" to dummy variable
df = pd. get_dummies (df, columns=[' team '], drop_first= True )

#view updated DataFrame
df

        assists rebounds points team_B
0 5 11 14 0
1 7 8 19 0
2 7 10 8 0
3 9 6 12 0
4 12 6 17 1
5 9 5 19 1
6 9 9 22 1
7 4 12 25 1

I valori nella colonna “squadra” sono stati convertiti da “A” e “B” a 0 e 1.

Ora possiamo adattare il modello di regressione lineare multipla utilizzando la nuova variabile “team_B”:

 import statsmodels. api as sm

#define response variable
y = df['points']

#define predictor variables
x = df[['team_B', 'assists', 'rebounds']]

#add constant to predictor variables
x = sm. add_constant (x)

#fit regression model
model = sm. OLS (y,x). fit ()

#view summary of model fit
print ( model.summary ())

                            OLS Regression Results                            
==================================================== ============================
Dept. Variable: R-squared points: 0.701
Model: OLS Adj. R-squared: 0.476
Method: Least Squares F-statistic: 3.119
Date: Thu, 11 Nov 2021 Prob (F-statistic): 0.150
Time: 14:49:53 Log-Likelihood: -19.637
No. Observations: 8 AIC: 47.27
Df Residuals: 4 BIC: 47.59
Df Model: 3                                         
Covariance Type: non-robust                                         
==================================================== ============================
                 coef std err t P>|t| [0.025 0.975]
-------------------------------------------------- ----------------------------
const 27.1891 17.058 1.594 0.186 -20.171 74.549
team_B 9.1288 3.032 3.010 0.040 0.709 17.548
assists -1.3445 1.148 -1.171 0.307 -4.532 1.843
rebounds -0.5174 1.099 -0.471 0.662 -3.569 2.534
==================================================== ============================
Omnibus: 0.691 Durbin-Watson: 3.075
Prob(Omnibus): 0.708 Jarque-Bera (JB): 0.145
Skew: 0.294 Prob(JB): 0.930
Kurtosis: 2.698 Cond. No. 140.
==================================================== ============================

Si noti che questa volta siamo in grado di adattare il modello di regressione senza errori.

Nota : puoi trovare la documentazione completa per la funzione ols() nella libreria statsmodels qui .

Risorse addizionali

I seguenti tutorial spiegano come correggere altri errori comuni in Python:

Come correggere l’errore chiave nei Panda
Come risolvere il problema: ValueError: impossibile convertire float NaN in int
Come risolvere il problema: ValueError: non è stato possibile trasmettere gli operandi con le forme

Informazioni sull'autore

Benjamin anderson

Ciao, sono Benjamin, un professore di statistica in pensione diventato insegnante dedicato di Statorials. Con una vasta esperienza e competenza nel campo della statistica, sono ansioso di condividere le mie conoscenze per potenziare gli studenti attraverso Statorials. Scopri di più

Come riprodurre l’errore

Come correggere l’errore

Risorse addizionali

Informazioni sull'autore

Benjamin anderson

Aggiungi un commento