So konvertieren sie eine kategoriale variable in pandas in eine numerische variable

Von Dr. Benjamin Anderson Juli 22, 2023 Führung Keine Kommentare

Sie können die folgende grundlegende Syntax verwenden, um eine kategoriale Variable in eine numerische Variable in einem Pandas-DataFrame zu konvertieren:

 df[' column_name '] = pd. factorize (df[' column_name '])[0]

Sie können auch die folgende Syntax verwenden, um jede kategoriale Variable in einem DataFrame in eine numerische Variable zu konvertieren:

 #identify all categorical variables
cat_columns = df. select_dtypes ([' object ']). columns

#convert all categorical variables to numeric
df[cat_columns] = df[cat_columns]. apply ( lambda x: pd.factorize (x)[ 0 ])

Die folgenden Beispiele zeigen, wie Sie diese Syntax in der Praxis anwenden können.

Beispiel 1: Konvertieren Sie eine kategoriale Variable in eine numerische

Angenommen, wir haben den folgenden Pandas-DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
                   ' position ': ['G', 'G', 'F', 'G', 'F', 'C', 'G', 'F', 'C'],
                   ' points ': [5, 7, 7, 9, 12, 9, 9, 4, 13],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12, 10]})

#view DataFrame
df

team position points rebounds
0 A G 5 11
1 A G 7 8
2 A F 7 10
3 B G 9 6
4 B F 12 6
5 B C 9 5
6 C G 9 9
7 C F 4 12
8 C C 13 10

Wir können die folgende Syntax verwenden, um die Spalte „Team“ in eine numerische Spalte umzuwandeln:

 #convert 'team' column to numeric
df[' team '] = pd. factorize (df[' team '])[ 0 ]

#view updated DataFrame
df

team position points rebounds
0 0 G 5 11
1 0 G 7 8
2 0 F 7 10
3 1 G 9 6
4 1 F 12 6
5 1 C 9 5
6 2 G 9 9
7 2 F 4 12
8 2 C 13 10

So lief die Umstellung ab:

Jedes Team, das den Wert „ A “ hatte, wurde in 0 umgewandelt.
Jedes Team, das den Wert „ B “ hatte, wurde in eine 1 umgewandelt.
Jedes Team, das einen Wert von „ C “ hatte, wurde in eine 2 umgewandelt.

Beispiel 2: Konvertieren mehrerer kategorialer Variablen in numerische Werte

Nehmen wir erneut an, dass wir den folgenden Pandas-DataFrame haben:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
                   ' position ': ['G', 'G', 'F', 'G', 'F', 'C', 'G', 'F', 'C'],
                   ' points ': [5, 7, 7, 9, 12, 9, 9, 4, 13],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12, 10]})

#view DataFrame
df

        team position points rebounds
0 A G 5 11
1 A G 7 8
2 A F 7 10
3 B G 9 6
4 B F 12 6
5 B C 9 5
6 C G 9 9
7 C F 4 12
8 C C 13 10

Wir können die folgende Syntax verwenden, um jede kategoriale Variable im DataFrame in eine numerische Variable umzuwandeln:

 #get all categorical columns
cat_columns = df. select_dtypes ([' object ']). columns

#convert all categorical columns to numeric
df[cat_columns] = df[cat_columns]. apply ( lambda x: pd.factorize (x)[ 0 ])

#view updated DataFrame
df

	team position points rebounds
0 0 0 5 11
1 0 0 7 8
2 0 1 7 10
3 1 0 9 6
4 1 1 12 6
5 1 2 9 5
6 2 0 9 9
7 2 1 4 12
8 2 2 13 10

Beachten Sie, dass die beiden kategorialen Spalten (Team und Position) beide in Zahlen umgewandelt wurden, während die Punkte- und Rebounds-Spalten gleich geblieben sind.

Hinweis : Die vollständige Dokumentation der Pandas- Factorize() -Funktion finden Sie hier .

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:

So konvertieren Sie Pandas DataFrame-Spalten in Zeichenfolgen
So konvertieren Sie Pandas DataFrame-Spalten in Ganzzahlen
So konvertieren Sie Zeichenfolgen in Pandas DataFrame in Float

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen

Beispiel 1: Konvertieren Sie eine kategoriale Variable in eine numerische

Beispiel 2: Konvertieren mehrerer kategorialer Variablen in numerische Werte

Zusätzliche Ressourcen

Über den Autor

Dr. Benjamin Anderson

Einen Kommentar hinzufügen