Panda's: dropna() gebruiken met specifieke kolommen
U kunt de functie dropna() gebruiken met het subset- argument om rijen uit een pandas DataFrame te verwijderen die ontbrekende waarden in specifieke kolommen bevatten.
Dit zijn de meest voorkomende manieren om deze functie in de praktijk te gebruiken:
Methode 1: Verwijder rijen met ontbrekende waarden in een specifieke kolom
df. dropna (subset = [' column1 '], inplace= True )
Methode 2: Verwijder rijen met ontbrekende waarden in een van de verschillende specifieke kolommen
df. dropna (subset = [' column1 ', ' column2 ', ' column3 '], inplace= True )
De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met de volgende panda’s DataFrame:
import pandas as pd import numpy as np #createDataFrame df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'], ' points ': [18, np.nan, 19, 14, 14, 11, 20, 28], ' assists ': [5, np.nan, np.nan, 9, 12, 9, 9, 4], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan]}) #view DataFrame print (df) team points assists rebounds 0 A 18.0 5.0 11.0 1 B NaN NaN 8.0 2 C 19.0 NaN 10.0 3D 14.0 9.0 6.0 4 E 14.0 12.0 6.0 5 F 11.0 9.0 5.0 6G 20.0 9.0 9.0 7H 28.0 4.0 NaN
Voorbeeld 1: Verwijder rijen met ontbrekende waarden in een specifieke kolom
We kunnen de volgende syntaxis gebruiken om rijen met ontbrekende waarden in de kolom „hulp“ te verwijderen:
#drop rows with missing values in 'assists' column df. dropna (subset = [' assists '], inplace= True ) #view updated DataFrame print (df) team points assists rebounds 0 A 18.0 5.0 11.0 3D 14.0 9.0 6.0 4 E 14.0 12.0 6.0 5 F 11.0 9.0 5.0 6G 20.0 9.0 9.0 7H 28.0 4.0 NaN
Merk op dat de twee rijen met ontbrekende waarden in de kolom ‘Assists’ beide uit het DataFrame zijn verwijderd.
Houd er ook rekening mee dat de laatste rij van het DataFrame behouden blijft, zelfs als deze een ontbrekende waarde heeft, omdat de ontbrekende waarde niet in de kolom ‚help‘ staat.
Voorbeeld 2: Verwijder rijen met ontbrekende waarden in een van meerdere specifieke kolommen
We kunnen de volgende syntaxis gebruiken om rijen met ontbrekende waarden in de kolommen „punten“ of „bounces“ te verwijderen:
#drop rows with missing values in 'points' or 'rebounds' column df. dropna (subset = [' points ', ' rebounds '], inplace= True ) #view updated DataFrame print (df) team points assists rebounds 0 A 18.0 5.0 11.0 2 C 19.0 NaN 10.0 3D 14.0 9.0 6.0 4 E 14.0 12.0 6.0 5 F 11.0 9.0 5.0 6G 20.0 9.0 9.0
Merk op dat de twee rijen met ontbrekende waarden in de kolommen „punten“ of „bounces“ uit het DataFrame zijn verwijderd.
Opmerking : u kunt hier de volledige documentatie voor de pandas dropna()- functie vinden.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in panda’s kunt uitvoeren:
Panda’s: hoe de index opnieuw in te stellen na het gebruik van dropna()
Panda’s: kolommen met NaN-waarden verwijderen
Panda’s: rijen verwijderen op basis van meerdere voorwaarden