วิธีแก้ไข: ข้อมูลแพนด้าถูกแปลงเป็นประเภทออบเจ็กต์ที่เป็นตัวเลข ตรวจสอบข้อมูลอินพุตด้วย np.asarray(data)

โดย ดร.เบนจามิน แอนเดอร์สัน กรกฎาคม 22, 2023 แนะนำ 0 ความคิดเห็น

ข้อผิดพลาดที่คุณอาจพบเมื่อใช้ Python คือ:

 ValueError : Pandas data cast to numpy dtype of object. Check input data with
np.asarray(data).

ข้อผิดพลาดนี้เกิดขึ้นเมื่อคุณพยายามที่จะปรับให้พอดีกับโมเดลการถดถอยใน Python และไม่สามารถแปลงตัวแปรหมวดหมู่เป็น ตัวแปรจำลอง ก่อนที่จะปรับโมเดลให้เหมาะสม

ตัวอย่างต่อไปนี้แสดงวิธีการแก้ไขข้อผิดพลาดนี้ในทางปฏิบัติ

วิธีการทำซ้ำข้อผิดพลาด

สมมติว่าเรามี DataFrame แพนด้าดังต่อไปนี้:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12],
                   ' points ': [14, 19, 8, 12, 17, 19, 22, 25]})

#view DataFrame
df

	team assists rebounds points
0 A 5 11 14
1 To 7 8 19
2 A 7 10 8
3 to 9 6 12
4 B 12 6 17
5 B 9 5 19
6 B 9 9 22
7 B 4 12 25

ตอนนี้ สมมติว่าเราพยายามปรับ โมเดลการถดถอยเชิงเส้นหลายตัว โดยใช้ทีม ช่วยเหลือและรีบาวด์เป็นตัวแปรทำนาย และชี้เป็น ตัวแปรตอบสนอง :

 import statsmodels. api as sm

#define response variable
y = df['points']

#define predictor variables
x = df[['team', 'assists', 'rebounds']]

#add constant to predictor variables
x = sm. add_constant (x)

#attempt to fit regression model
model = sm. OLS (y,x). fit ()

ValueError : Pandas data cast to numpy dtype of object. Check input data with
np.asarray(data).

เราได้รับข้อผิดพลาดเนื่องจากตัวแปร “ทีม” มีการจัดหมวดหมู่ และเราไม่ได้แปลงเป็นตัวแปรจำลองก่อนที่จะปรับโมเดลการถดถอยให้เหมาะสม

วิธีการแก้ไขข้อผิดพลาด

วิธีที่ง่ายที่สุดในการแก้ไขข้อผิดพลาดนี้คือการแปลงตัวแปร “ทีม” เป็นตัวแปรจำลองโดยใช้ฟังก์ชัน pandas.get_dummies()

หมายเหตุ : ลองอ่าน บทช่วยสอนนี้ เพื่อทบทวนตัวแปรจำลองในแบบจำลองการถดถอยอย่างรวดเร็ว

รหัสต่อไปนี้แสดงวิธีการแปลง “ทีม” เป็นตัวแปรจำลอง:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12],
                   ' points ': [14, 19, 8, 12, 17, 19, 22, 25]})

#convert "team" to dummy variable
df = pd. get_dummies (df, columns=[' team '], drop_first= True )

#view updated DataFrame
df

        assists rebounds points team_B
0 5 11 14 0
1 7 8 19 0
2 7 10 8 0
3 9 6 12 0
4 12 6 17 1
5 9 5 19 1
6 9 9 22 1
7 4 12 25 1

ค่าในคอลัมน์ “ทีม” ถูกแปลงจาก “A” และ “B” เป็น 0 และ 1

ตอนนี้เราสามารถปรับโมเดลการถดถอยเชิงเส้นหลายตัวได้โดยใช้ตัวแปรใหม่ “team_B”:

 import statsmodels. api as sm

#define response variable
y = df['points']

#define predictor variables
x = df[['team_B', 'assists', 'rebounds']]

#add constant to predictor variables
x = sm. add_constant (x)

#fit regression model
model = sm. OLS (y,x). fit ()

#view summary of model fit
print ( model.summary ())

                            OLS Regression Results                            
==================================================== ============================
Dept. Variable: R-squared points: 0.701
Model: OLS Adj. R-squared: 0.476
Method: Least Squares F-statistic: 3.119
Date: Thu, 11 Nov 2021 Prob (F-statistic): 0.150
Time: 14:49:53 Log-Likelihood: -19.637
No. Observations: 8 AIC: 47.27
Df Residuals: 4 BIC: 47.59
Df Model: 3                                         
Covariance Type: non-robust                                         
==================================================== ============================
                 coef std err t P>|t| [0.025 0.975]
-------------------------------------------------- ----------------------------
const 27.1891 17.058 1.594 0.186 -20.171 74.549
team_B 9.1288 3.032 3.010 0.040 0.709 17.548
assists -1.3445 1.148 -1.171 0.307 -4.532 1.843
rebounds -0.5174 1.099 -0.471 0.662 -3.569 2.534
==================================================== ============================
Omnibus: 0.691 Durbin-Watson: 3.075
Prob(Omnibus): 0.708 Jarque-Bera (JB): 0.145
Skew: 0.294 Prob(JB): 0.930
Kurtosis: 2.698 Cond. No. 140.
==================================================== ============================

โปรดทราบว่าคราวนี้เราสามารถใส่แบบจำลองการถดถอยได้โดยไม่มีข้อผิดพลาดใดๆ

หมายเหตุ : คุณสามารถค้นหาเอกสารฉบับเต็มสำหรับฟังก์ชัน ols() ได้ ในไลบรารี statsmodels ที่นี่

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีแก้ไขข้อผิดพลาดทั่วไปอื่นๆ ใน Python:

วิธีแก้ไข KeyError ใน Pandas
วิธีแก้ไข: ValueError: ไม่สามารถแปลง float NaN เป็น int
วิธีแก้ไข: ValueError: ตัวถูกดำเนินการไม่สามารถออกอากาศด้วยรูปร่างได้

เกี่ยวกับผู้แต่ง

ดร.เบนจามิน แอนเดอร์สัน

สวัสดี ฉันชื่อเบนจามิน ศาสตราจารย์สถิติเกษียณอายุแล้ว และผันตัวมาเป็นครูสอนสถิติโดยเฉพาะ ด้วยประสบการณ์และความเชี่ยวชาญที่กว้างขวางในสาขาสถิติ ฉันกระตือรือร้นที่จะแบ่งปันความรู้ของฉันเพื่อเสริมศักยภาพนักเรียนผ่าน Statorials. รู้เพิ่มเติม

วิธีการทำซ้ำข้อผิดพลาด

วิธีการแก้ไขข้อผิดพลาด

แหล่งข้อมูลเพิ่มเติม

เกี่ยวกับผู้แต่ง

ดร.เบนจามิน แอนเดอร์สัน

เพิ่มความคิดเห็น