Oplossing: panda-gegevens worden geconverteerd naar numpy-objecttype. controleer de invoergegevens met np.asarray(data).
Een fout die u kunt tegenkomen bij het gebruik van Python is:
ValueError : Pandas data cast to numpy dtype of object. Check input data with
np.asarray(data).
Deze fout treedt op wanneer u probeert een regressiemodel in Python te passen en de categorische variabelen niet naar dummyvariabelen kunt converteren voordat u het model aanpast.
Het volgende voorbeeld laat zien hoe u deze fout in de praktijk kunt corrigeren.
Hoe de fout te reproduceren
Stel dat we de volgende panda’s DataFrame hebben:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12],
' points ': [14, 19, 8, 12, 17, 19, 22, 25]})
#view DataFrame
df
team assists rebounds points
0 A 5 11 14
1 To 7 8 19
2 A 7 10 8
3 to 9 6 12
4 B 12 6 17
5 B 9 5 19
6 B 9 9 22
7 B 4 12 25
Stel nu dat we proberen een meervoudig lineair regressiemodel in te passen met behulp van team, assists en rebounds als voorspellende variabelen en punten alsresponsvariabele :
import statsmodels. api as sm
#define response variable
y = df['points']
#define predictor variables
x = df[['team', 'assists', 'rebounds']]
#add constant to predictor variables
x = sm. add_constant (x)
#attempt to fit regression model
model = sm. OLS (y,x). fit ()
ValueError : Pandas data cast to numpy dtype of object. Check input data with
np.asarray(data).
We ontvangen een foutmelding omdat de variabele ‚team‘ categorisch is en we deze niet hebben omgezet in een dummyvariabele voordat we het regressiemodel hebben aangepast.
Hoe u de fout kunt oplossen
De eenvoudigste manier om deze fout op te lossen is door de variabele „team“ te converteren naar een dummyvariabele met behulp van de functie pandas.get_dummies() .
Opmerking : Bekijk deze tutorial voor een snelle opfrisser over dummyvariabelen in regressiemodellen.
De volgende code laat zien hoe u ‚team‘ naar een dummyvariabele converteert:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12],
' points ': [14, 19, 8, 12, 17, 19, 22, 25]})
#convert "team" to dummy variable
df = pd. get_dummies (df, columns=[' team '], drop_first= True )
#view updated DataFrame
df
assists rebounds points team_B
0 5 11 14 0
1 7 8 19 0
2 7 10 8 0
3 9 6 12 0
4 12 6 17 1
5 9 5 19 1
6 9 9 22 1
7 4 12 25 1
De waarden in de kolom ‘team’ zijn omgezet van ‘A’ en ‘B’ naar 0 en 1.
We kunnen nu het meervoudige lineaire regressiemodel aanpassen met behulp van de nieuwe variabele “team_B”:
import statsmodels. api as sm
#define response variable
y = df['points']
#define predictor variables
x = df[['team_B', 'assists', 'rebounds']]
#add constant to predictor variables
x = sm. add_constant (x)
#fit regression model
model = sm. OLS (y,x). fit ()
#view summary of model fit
print ( model.summary ())
OLS Regression Results
==================================================== ============================
Dept. Variable: R-squared points: 0.701
Model: OLS Adj. R-squared: 0.476
Method: Least Squares F-statistic: 3.119
Date: Thu, 11 Nov 2021 Prob (F-statistic): 0.150
Time: 14:49:53 Log-Likelihood: -19.637
No. Observations: 8 AIC: 47.27
Df Residuals: 4 BIC: 47.59
Df Model: 3
Covariance Type: non-robust
==================================================== ============================
coef std err t P>|t| [0.025 0.975]
-------------------------------------------------- ----------------------------
const 27.1891 17.058 1.594 0.186 -20.171 74.549
team_B 9.1288 3.032 3.010 0.040 0.709 17.548
assists -1.3445 1.148 -1.171 0.307 -4.532 1.843
rebounds -0.5174 1.099 -0.471 0.662 -3.569 2.534
==================================================== ============================
Omnibus: 0.691 Durbin-Watson: 3.075
Prob(Omnibus): 0.708 Jarque-Bera (JB): 0.145
Skew: 0.294 Prob(JB): 0.930
Kurtosis: 2.698 Cond. No. 140.
==================================================== ============================
Merk op dat we deze keer het regressiemodel zonder fouten kunnen fitten.
Opmerking : u kunt hier de volledige documentatie voor de ols() -functie in de statsmodels-bibliotheek vinden.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende fouten in Python kunt oplossen:
Hoe KeyError in Panda’s te repareren
Oplossing: ValueError: Kan float NaN niet naar int converteren
Oplossing: ValueError: Operanden konden niet worden uitgezonden met vormen