Hoe ontbrekende waarden toe te schrijven aan panda's (inclusief een voorbeeld)


U kunt de volgende basissyntaxis gebruiken om ontbrekende waarden in een pandas DataFrame toe te schrijven:

 df[' column_name '] = df[' column_name ']. interpolate ()

Het volgende voorbeeld laat zien hoe u deze syntaxis in de praktijk kunt gebruiken.

Voorbeeld: Interpoleer ontbrekende waarden in panda’s

Laten we zeggen dat we het volgende panda’s DataFrame hebben dat de totale omzet van een winkel gedurende 15 opeenvolgende dagen weergeeft:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' day ': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15],
                   ' sales ': [3, 6, 8, 10, 14, 17, 20, np.nan, np.nan, np.nan,
                             np.nan, 35, 39, 44, 49]})

#view DataFrame
print (df)

    day sales
0 1 3.0
1 2 6.0
2 3 8.0
3 4 10.0
4 5 14.0
5 6 17.0
6 7 20.0
7 8 NaN
8 9 NaN
9 10 NaN
10 11 NaN
11 12 35.0
12 13 39.0
13 14 44.0
14 15 49.0

Houd er rekening mee dat er in het gegevensframe verkoopcijfers voor vier dagen ontbreken.

Als we een eenvoudig lijndiagram zouden maken om de verkopen in de loop van de tijd te visualiseren, zou het er zo uitzien:

 #create line chart to visualize sales
df[' sales ']. plot ()

toeschrijven van ontbrekende waarden aan panda’s

Om de ontbrekende waarden in te vullen, kunnen we de functie interpolate() als volgt gebruiken:

 #interpolate missing values in 'sales' column
df[' sales '] = df[' sales ']. interpolate ()

#view DataFrame
print (df)

    day sales
0 1 3.0
1 2 6.0
2 3 8.0
3 4 10.0
4 5 14.0
5 6 17.0
6 7 20.0
7 8 23.0
8 9 26.0
9 10 29.0
10 11 32.0
11 12 35.0
12 13 39.0
13 14 44.0
14 15 49.0

Merk op dat elk van de ontbrekende waarden is vervangen.

Als we nog een lijndiagram maken om het bijgewerkte dataframe te visualiseren, zou het er zo uitzien:

 #create line chart to visualize sales
df[' sales ']. plot ()

Merk op dat de waarden gekozen door de functie interpolate() vrij goed lijken te passen bij de trend van de gegevens.

Opmerking : u kunt de volledige documentatie voor de functie interpolate() hier vinden.

Aanvullende bronnen

De volgende tutorials bieden aanvullende informatie over het omgaan met ontbrekende waarden in panda’s:

Hoe ontbrekende waarden bij panda’s te tellen
Hoe NaN-waarden te vervangen door een string in Pandas
Hoe NaN-waarden te vervangen door nul in Panda’s

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert