วิธีใส่ค่าที่หายไปในแพนด้า (พร้อมตัวอย่าง)


คุณสามารถใช้ไวยากรณ์พื้นฐานต่อไปนี้เพื่อใส่ค่าที่หายไปใน Pandas DataFrame:

 df[' column_name '] = df[' column_name ']. interpolate ()

ตัวอย่างต่อไปนี้แสดงวิธีใช้ไวยากรณ์นี้ในทางปฏิบัติ

ตัวอย่าง: สอดแทรกค่าที่หายไปใน Pandas

สมมติว่าเรามี DataFrame แพนด้าต่อไปนี้ซึ่งแสดงยอดขายรวมของร้านค้าเป็นเวลา 15 วันติดต่อกัน:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' day ': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15],
                   ' sales ': [3, 6, 8, 10, 14, 17, 20, np.nan, np.nan, np.nan,
                             np.nan, 35, 39, 44, 49]})

#view DataFrame
print (df)

    day sales
0 1 3.0
1 2 6.0
2 3 8.0
3 4 10.0
4 5 14.0
5 6 17.0
6 7 20.0
7 8 NaN
8 9 NaN
9 10 NaN
10 11 NaN
11 12 35.0
12 13 39.0
13 14 44.0
14 15 49.0

โปรดทราบว่าเราขาดตัวเลขยอดขายเป็นเวลาสี่วันในกรอบข้อมูล

หากเราสร้างแผนภูมิเส้นง่ายๆ เพื่อแสดงภาพยอดขายเมื่อเวลาผ่านไป หน้าตาจะเป็นอย่างไร:

 #create line chart to visualize sales
df[' sales ']. plot ()

ใส่ค่าที่หายไปในแพนด้า

ในการเติมค่าที่หายไป เราสามารถใช้ฟังก์ชัน interpolate() ได้ดังนี้:

 #interpolate missing values in 'sales' column
df[' sales '] = df[' sales ']. interpolate ()

#view DataFrame
print (df)

    day sales
0 1 3.0
1 2 6.0
2 3 8.0
3 4 10.0
4 5 14.0
5 6 17.0
6 7 20.0
7 8 23.0
8 9 26.0
9 10 29.0
10 11 32.0
11 12 35.0
12 13 39.0
13 14 44.0
14 15 49.0

โปรดทราบว่าแต่ละค่าที่หายไปได้ถูกแทนที่แล้ว

หากเราสร้างแผนภูมิเส้นอื่นเพื่อแสดงภาพกรอบข้อมูลที่อัปเดต จะเป็นดังนี้:

 #create line chart to visualize sales
df[' sales ']. plot ()

โปรดทราบว่าค่าที่เลือกโดยฟังก์ชัน interpolate() ดูเหมือนจะตรงกับแนวโน้มของข้อมูลค่อนข้างดี

หมายเหตุ : คุณสามารถดูเอกสารฉบับเต็มสำหรับฟังก์ชัน interpolate() ได้ที่นี่

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับวิธีการจัดการกับค่าที่หายไปในแพนด้า:

วิธีนับค่าที่หายไปในแพนด้า
วิธีแทนที่ค่า NaN ด้วยสตริงใน Pandas
วิธีแทนที่ค่า NaN ด้วยศูนย์ใน Pandas

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *