Pandas: so verwenden sie dropna() mit bestimmten spalten


Sie können die Funktion dropna() mit dem Argument subset verwenden, um Zeilen aus einem Pandas-DataFrame zu entfernen, die fehlende Werte in bestimmten Spalten enthalten.

Hier sind die häufigsten Möglichkeiten, diese Funktion in der Praxis zu nutzen:

Methode 1: Zeilen mit fehlenden Werten in einer bestimmten Spalte entfernen

 df. dropna (subset = [' column1 '], inplace= True )

Methode 2: Zeilen mit fehlenden Werten in einer von mehreren spezifischen Spalten entfernen

 df. dropna (subset = [' column1 ', ' column2 ', ' column3 '], inplace= True )

Die folgenden Beispiele zeigen, wie jede Methode in der Praxis mit dem folgenden Pandas DataFrame verwendet wird:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, np.nan, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, np.nan, np.nan, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18.0 5.0 11.0
1 B NaN NaN 8.0
2 C 19.0 NaN 10.0
3D 14.0 9.0 6.0
4 E 14.0 12.0 6.0
5 F 11.0 9.0 5.0
6G 20.0 9.0 9.0
7H 28.0 4.0 NaN

Beispiel 1: Zeilen mit fehlenden Werten in einer bestimmten Spalte entfernen

Mit der folgenden Syntax können wir Zeilen mit fehlenden Werten in der Spalte „assistions“ entfernen:

 #drop rows with missing values in 'assists' column
df. dropna (subset = [' assists '], inplace= True )

#view updated DataFrame
print (df)

  team points assists rebounds
0 A 18.0 5.0 11.0
3D 14.0 9.0 6.0
4 E 14.0 12.0 6.0
5 F 11.0 9.0 5.0
6G 20.0 9.0 9.0
7H 28.0 4.0 NaN

Beachten Sie, dass die beiden Zeilen mit fehlenden Werten in der Spalte „Assists“ beide aus dem DataFrame entfernt wurden.

Beachten Sie außerdem, dass die letzte Zeile des DataFrame auch dann beibehalten wird, wenn ein Wert fehlt, da sich der fehlende Wert nicht in der Spalte „helps“ befindet.

Beispiel 2: Zeilen mit fehlenden Werten in einer von mehreren spezifischen Spalten entfernen

Wir können die folgende Syntax verwenden, um Zeilen mit fehlenden Werten in den Spalten „Punkte“ oder „Bounces“ zu entfernen:

 #drop rows with missing values in 'points' or 'rebounds' column
df. dropna (subset = [' points ', ' rebounds '], inplace= True )

#view updated DataFrame
print (df)

  team points assists rebounds
0 A 18.0 5.0 11.0
2 C 19.0 NaN 10.0
3D 14.0 9.0 6.0
4 E 14.0 12.0 6.0
5 F 11.0 9.0 5.0
6G 20.0 9.0 9.0

Beachten Sie, dass die beiden Zeilen mit fehlenden Werten in den Spalten „Punkte“ oder „Bounces“ aus dem DataFrame entfernt wurden.

Hinweis : Die vollständige Dokumentation für die Funktion pandas dropna() finden Sie hier .

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere häufige Aufgaben in Pandas ausführen:

Pandas: So setzen Sie den Index nach der Verwendung von dropna() zurück
Pandas: So entfernen Sie Spalten mit NaN-Werten
Pandas: So löschen Sie Zeilen basierend auf mehreren Bedingungen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert