Oplossing: invoer bevat nan, oneindig of een waarde die te groot is voor dtype ('float64')

Von Dr.benjamin anderson Juli 16, 2023 Gids Keine Kommentare

Een veel voorkomende fout die u kunt tegenkomen bij het gebruik van Python is:

 ValueError: Input contains infinity or a value too large for dtype('float64').

Deze fout treedt meestal op wanneer u een functie uit de scikit-learn-module probeert te gebruiken, maar het DataFrame of de matrix die u als invoer gebruikt NaN-waarden of oneindige waarden heeft.

Het volgende voorbeeld laat zien hoe u deze fout in de praktijk kunt oplossen.

Hoe de fout te reproduceren

Stel dat we de volgende panda’s DataFrame hebben:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' x1 ': [1, 2, 2, 4, 2, 1, 5, 4, 2, 4, 4],
                   ' x2 ': [1, 3, 3, 5, 2, 2, 1, np.inf, 0, 3, 4],
                   ' y ': [np.nan, 78, 85, 88, 72, 69, 94, 94, 88, 92, 90]})

#view DataFrame
print (df)

    x1 x2 y
0 1 1.0 NaN
1 2 3.0 78.0
2 2 3.0 85.0
3 4 5.0 88.0
4 2 2.0 72.0
5 1 2.0 69.0
6 5 1.0 94.0
7 4 lower 94.0
8 2 0.0 88.0
9 4 3.0 92.0
10 4 4.0 90.0

Stel nu dat we proberen een meervoudig lineair regressiemodel in te passen met behulp van scikit-learn -functies:

 from sklearn. linear_model import LinearRegression

#initiate linear regression model
model = LinearRegression()

#define predictor and response variables
x, y = df[[' x1 ', ' x2 ']], df. y

#fit regression model
model. fit (x,y)

#print model intercept and coefficients
print (model. intercept_ , model. coef_ )

ValueError: Input contains infinity or a value too large for dtype('float64').

We ontvangen een foutmelding omdat het DataFrame dat we gebruiken zowel oneindige als NaN-waarden heeft.

Hoe u de fout kunt oplossen

De manier om deze fout op te lossen is door eerst alle rijen uit het DataFrame te verwijderen die oneindige of NaN-waarden bevatten:

 #remove rows with any values that are not finite
df_new = df[np. isfinite (df). all ( 1 )]

#view updated DataFrame
print (df_new)

    x1 x2 y
1 2 3.0 78.0
2 2 3.0 85.0
3 4 5.0 88.0
4 2 2.0 72.0
5 1 2.0 69.0
6 5 1.0 94.0
8 2 0.0 88.0
9 4 3.0 92.0
10 4 4.0 90.0

De twee regels met oneindige of NaN-waarden zijn verwijderd.

We kunnen nu doorgaan met het aanpassen van ons lineaire regressiemodel:

 from sklearn. linear_model import LinearRegression

#initiate linear regression model
model = LinearRegression()

#define predictor and response variables
x, y = df_new[[' x1 ', ' x2 ']], df_new. y

#fit regression model
model. fit (x,y)

#print model intercept and coefficients
print (model. intercept_ , model. coef_ )

69.85144124168515 [5.72727273 -0.93791574]

Merk op dat we deze keer geen fouten ontvangen omdat we eerst de rijen met oneindige of NaN-waarden uit het DataFrame hebben verwijderd.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende fouten in Python kunt oplossen:

Oplossing in Python: Object ’numpy.ndarray‘ kan niet worden opgevraagd
Oplossing: TypeError: Object ’numpy.float64′ kan niet worden opgevraagd
Oplossing: Typefout: verwacht tekenreeks- of bytesobject

Über den Autor

Dr.benjamin anderson

Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder

Hoe de fout te reproduceren

Hoe u de fout kunt oplossen

Aanvullende bronnen

Über den Autor

Dr.benjamin anderson

Einen Kommentar hinzufügen