Как исправить: входные данные содержат nan, бесконечность или значение, слишком большое для dtype («float64»).

К бенджамин андерсон 16 июля, 2023 Гид 0 комментариев

Распространенная ошибка, с которой вы можете столкнуться при использовании Python:

 ValueError: Input contains infinity or a value too large for dtype('float64').

Эта ошибка обычно возникает, когда вы пытаетесь использовать функцию из модуля scikit-learn, но DataFrame или матрица, которую вы используете в качестве входных данных, имеет значения NaN или бесконечные значения.

В следующем примере показано, как устранить эту ошибку на практике.

Как воспроизвести ошибку

Предположим, у нас есть следующий DataFrame pandas:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' x1 ': [1, 2, 2, 4, 2, 1, 5, 4, 2, 4, 4],
                   ' x2 ': [1, 3, 3, 5, 2, 2, 1, np.inf, 0, 3, 4],
                   ' y ': [np.nan, 78, 85, 88, 72, 69, 94, 94, 88, 92, 90]})

#view DataFrame
print (df)

    x1 x2 y
0 1 1.0 NaN
1 2 3.0 78.0
2 2 3.0 85.0
3 4 5.0 88.0
4 2 2.0 72.0
5 1 2.0 69.0
6 5 1.0 94.0
7 4 lower 94.0
8 2 0.0 88.0
9 4 3.0 92.0
10 4 4.0 90.0

Теперь предположим, что мы пытаемся подогнать модель множественной линейной регрессии с помощью функций scikit-learn :

 from sklearn. linear_model import LinearRegression

#initiate linear regression model
model = LinearRegression()

#define predictor and response variables
x, y = df[[' x1 ', ' x2 ']], df. y

#fit regression model
model. fit (x,y)

#print model intercept and coefficients
print (model. intercept_ , model. coef_ )

ValueError: Input contains infinity or a value too large for dtype('float64').

Мы получаем ошибку, поскольку используемый нами DataFrame имеет как бесконечные значения, так и значения NaN.

Как исправить ошибку

Способ устранения этой ошибки — сначала удалить из DataFrame все строки, содержащие бесконечные значения или значения NaN:

 #remove rows with any values that are not finite
df_new = df[np. isfinite (df). all ( 1 )]

#view updated DataFrame
print (df_new)

    x1 x2 y
1 2 3.0 78.0
2 2 3.0 85.0
3 4 5.0 88.0
4 2 2.0 72.0
5 1 2.0 69.0
6 5 1.0 94.0
8 2 0.0 88.0
9 4 3.0 92.0
10 4 4.0 90.0

Две строки с бесконечными значениями или значениями NaN были удалены.

Теперь мы можем приступить к настройке нашей модели линейной регрессии:

 from sklearn. linear_model import LinearRegression

#initiate linear regression model
model = LinearRegression()

#define predictor and response variables
x, y = df_new[[' x1 ', ' x2 ']], df_new. y

#fit regression model
model. fit (x,y)

#print model intercept and coefficients
print (model. intercept_ , model. coef_ )

69.85144124168515 [5.72727273 -0.93791574]

Обратите внимание, что на этот раз мы не получаем никаких ошибок, поскольку сначала удалили строки с бесконечными значениями или значениями NaN из DataFrame.

Дополнительные ресурсы

В следующих руководствах объясняется, как исправить другие распространенные ошибки в Python:

Как исправить в Python: объект «numpy.ndarray» не подлежит вызову
Как исправить: Ошибка типа: объект «numpy.float64» не может быть вызван
Как исправить: Ошибка типа: ожидаемый строковый или байтовый объект

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше

Как воспроизвести ошибку

Как исправить ошибку

Дополнительные ресурсы

Об авторе

бенджамин андерсон

Добавить комментарий