Panda's: dropna() gebruiken met specifieke kolommen


U kunt de functie dropna() gebruiken met het subset- argument om rijen uit een pandas DataFrame te verwijderen die ontbrekende waarden in specifieke kolommen bevatten.

Dit zijn de meest voorkomende manieren om deze functie in de praktijk te gebruiken:

Methode 1: Verwijder rijen met ontbrekende waarden in een specifieke kolom

 df. dropna (subset = [' column1 '], inplace= True )

Methode 2: Verwijder rijen met ontbrekende waarden in een van de verschillende specifieke kolommen

 df. dropna (subset = [' column1 ', ' column2 ', ' column3 '], inplace= True )

De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met de volgende panda’s DataFrame:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, np.nan, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, np.nan, np.nan, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18.0 5.0 11.0
1 B NaN NaN 8.0
2 C 19.0 NaN 10.0
3D 14.0 9.0 6.0
4 E 14.0 12.0 6.0
5 F 11.0 9.0 5.0
6G 20.0 9.0 9.0
7H 28.0 4.0 NaN

Voorbeeld 1: Verwijder rijen met ontbrekende waarden in een specifieke kolom

We kunnen de volgende syntaxis gebruiken om rijen met ontbrekende waarden in de kolom „hulp“ te verwijderen:

 #drop rows with missing values in 'assists' column
df. dropna (subset = [' assists '], inplace= True )

#view updated DataFrame
print (df)

  team points assists rebounds
0 A 18.0 5.0 11.0
3D 14.0 9.0 6.0
4 E 14.0 12.0 6.0
5 F 11.0 9.0 5.0
6G 20.0 9.0 9.0
7H 28.0 4.0 NaN

Merk op dat de twee rijen met ontbrekende waarden in de kolom ‘Assists’ beide uit het DataFrame zijn verwijderd.

Houd er ook rekening mee dat de laatste rij van het DataFrame behouden blijft, zelfs als deze een ontbrekende waarde heeft, omdat de ontbrekende waarde niet in de kolom ‚help‘ staat.

Voorbeeld 2: Verwijder rijen met ontbrekende waarden in een van meerdere specifieke kolommen

We kunnen de volgende syntaxis gebruiken om rijen met ontbrekende waarden in de kolommen „punten“ of „bounces“ te verwijderen:

 #drop rows with missing values in 'points' or 'rebounds' column
df. dropna (subset = [' points ', ' rebounds '], inplace= True )

#view updated DataFrame
print (df)

  team points assists rebounds
0 A 18.0 5.0 11.0
2 C 19.0 NaN 10.0
3D 14.0 9.0 6.0
4 E 14.0 12.0 6.0
5 F 11.0 9.0 5.0
6G 20.0 9.0 9.0

Merk op dat de twee rijen met ontbrekende waarden in de kolommen „punten“ of „bounces“ uit het DataFrame zijn verwijderd.

Opmerking : u kunt hier de volledige documentatie voor de pandas dropna()- functie vinden.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in panda’s kunt uitvoeren:

Panda’s: hoe de index opnieuw in te stellen na het gebruik van dropna()
Panda’s: kolommen met NaN-waarden verwijderen
Panda’s: rijen verwijderen op basis van meerdere voorwaarden

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert