Hoe ontbrekende waarden toe te schrijven aan panda's (inclusief een voorbeeld)
U kunt de volgende basissyntaxis gebruiken om ontbrekende waarden in een pandas DataFrame toe te schrijven:
df[' column_name '] = df[' column_name ']. interpolate ()
Het volgende voorbeeld laat zien hoe u deze syntaxis in de praktijk kunt gebruiken.
Voorbeeld: Interpoleer ontbrekende waarden in panda’s
Laten we zeggen dat we het volgende panda’s DataFrame hebben dat de totale omzet van een winkel gedurende 15 opeenvolgende dagen weergeeft:
import pandas as pd import numpy as np #createDataFrame df = pd. DataFrame ({' day ': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15], ' sales ': [3, 6, 8, 10, 14, 17, 20, np.nan, np.nan, np.nan, np.nan, 35, 39, 44, 49]}) #view DataFrame print (df) day sales 0 1 3.0 1 2 6.0 2 3 8.0 3 4 10.0 4 5 14.0 5 6 17.0 6 7 20.0 7 8 NaN 8 9 NaN 9 10 NaN 10 11 NaN 11 12 35.0 12 13 39.0 13 14 44.0 14 15 49.0
Houd er rekening mee dat er in het gegevensframe verkoopcijfers voor vier dagen ontbreken.
Als we een eenvoudig lijndiagram zouden maken om de verkopen in de loop van de tijd te visualiseren, zou het er zo uitzien:
#create line chart to visualize sales df[' sales ']. plot ()
Om de ontbrekende waarden in te vullen, kunnen we de functie interpolate() als volgt gebruiken:
#interpolate missing values in 'sales' column df[' sales '] = df[' sales ']. interpolate () #view DataFrame print (df) day sales 0 1 3.0 1 2 6.0 2 3 8.0 3 4 10.0 4 5 14.0 5 6 17.0 6 7 20.0 7 8 23.0 8 9 26.0 9 10 29.0 10 11 32.0 11 12 35.0 12 13 39.0 13 14 44.0 14 15 49.0
Merk op dat elk van de ontbrekende waarden is vervangen.
Als we nog een lijndiagram maken om het bijgewerkte dataframe te visualiseren, zou het er zo uitzien:
#create line chart to visualize sales df[' sales ']. plot ()
Merk op dat de waarden gekozen door de functie interpolate() vrij goed lijken te passen bij de trend van de gegevens.
Opmerking : u kunt de volledige documentatie voor de functie interpolate() hier vinden.
Aanvullende bronnen
De volgende tutorials bieden aanvullende informatie over het omgaan met ontbrekende waarden in panda’s:
Hoe ontbrekende waarden bij panda’s te tellen
Hoe NaN-waarden te vervangen door een string in Pandas
Hoe NaN-waarden te vervangen door nul in Panda’s