So verwenden sie pandas get dummies – pd.get_dummies

Von Dr. Benjamin Anderson Juli 25, 2023 Führung Keine Kommentare

In der Statistik enthalten die Datensätze, mit denen wir arbeiten, häufig kategoriale Variablen .

Dies sind Variablen, die Namen oder Bezeichnungen annehmen. Beispiele beinhalten:

Familienstand („verheiratet“, „ledig“, „geschieden“)
Raucherstatus („Raucher“, „Nichtraucher“)
Augenfarbe („blau“, „grün“, „hasel“)
Bildungsniveau (z. B. „Abitur“, „Bachelor“, „Master“)

Bei der Optimierung von Algorithmen für maschinelles Lernen (wie lineare Regression , logistische Regression , Random Forests usw.) konvertieren wir häufig kategoriale Variablen in Dummy-Variablen , bei denen es sich um numerische Variablen handelt, die zur kategorialen Darstellung von Daten verwendet werden.

Angenommen, wir haben einen Datensatz, der die kategoriale Variable Geschlecht enthält. Um diese Variable als Prädiktor in einem Regressionsmodell zu verwenden, müsste sie zunächst in eine Dummy-Variable umgewandelt werden.

Um diese Dummy-Variable zu erstellen, können wir einen der Werte („Male“) zur Darstellung von 0 und den anderen Wert („Female“) zur Darstellung von 1 auswählen:

So erstellen Sie Dummy-Variablen in Pandas

Um Dummies für eine Variable in einem Pandas-DataFrame zu erstellen, können wir die Funktion pandas.get_dummies() verwenden, die die folgende grundlegende Syntax verwendet:

pandas.get_dummies(data, prefix=None, columns=None, drop_first=False)

Gold:

data : Der Name des Pandas DataFrame
Präfix : eine Zeichenfolge, die am Anfang der neuen Dummy-Variablenspalte hinzugefügt wird
columns : Der Name der Spalte(n), die in eine Dummy-Variable umgewandelt werden soll(en).
drop_first : ob die erste Dummy-Variablenspalte gelöscht werden soll oder nicht

Die folgenden Beispiele zeigen, wie Sie diese Funktion in der Praxis nutzen können.

Beispiel 1: Erstellen Sie eine einzelne Dummy-Variable

Angenommen, wir haben den folgenden Pandas-DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' income ': [45, 48, 54, 57, 65, 69, 78],
                   ' age ': [23, 25, 24, 29, 38, 36, 40],
                   ' gender ': ['M', 'F', 'M', 'F', 'F', 'F', 'M']})

#view DataFrame
df

        income age gender
0 45 23 M
1 48 25 F
2 54 24 M
3 57 29 F
4 65 38 F
5 69 36 F
6 78 40 M

Mit der Funktion pd.get_dummies() können wir das Geschlecht in eine Dummy-Variable umwandeln:

 #convert gender to dummy variable
p.d. get_dummies (df, columns=[' gender '], drop_first= True )

	income age gender_M
0 45 23 1
1 48 25 0
2 54 24 1
3 57 29 0
4 65 38 0
5 69 36 0
6 78 40 1

Die Spalte „Geschlecht“ ist jetzt eine Dummy-Variable, wobei Folgendes gilt:

Ein Wert von 0 steht für „weiblich“.
Ein Wert von 1 steht für „männlich“.

Beispiel 2: Erstellen Sie mehrere Dummy-Variablen

Angenommen, wir haben den folgenden Pandas-DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' income ': [45, 48, 54, 57, 65, 69, 78],
                   ' age ': [23, 25, 24, 29, 38, 36, 40],
                   ' gender ': ['M', 'F', 'M', 'F', 'F', 'F', 'M'],
                   ' college ': ['Y', 'N', 'N', 'N', 'Y', 'Y', 'Y']})

#view DataFrame
df

	income age gender college
0 45 23 M Y
1 48 25 F N
2 54 24 M N
3 57 29 F N
4 65 38 F Y
5 69 36 F Y
6 78 40 M Y

Wir können die Funktion pd.get_dummies() verwenden, um Geschlecht und Hochschule in Dummy-Variablen umzuwandeln:

 #convert gender to dummy variable
p.d. get_dummies (df, columns=[' gender ', ' college '], drop_first= True )


        income age gender_M college_Y
0 45 23 1 1
1 48 25 0 0
2 54 24 1 0
3 57 29 0 0
4 65 38 0 1
5 69 36 0 1
6 78 40 1 1

Die Spalte „Geschlecht“ ist jetzt eine Dummy-Variable, wobei Folgendes gilt:

Ein Wert von 0 steht für „weiblich“.
Ein Wert von 1 steht für „männlich“.

Und die Spalte „College“ ist jetzt eine Dummy-Variable, wobei:

Ein Wert von 0 steht für „Neine“ Universität
Ein Wert von 1 bedeutet „Ja“ zum College

Zusätzliche Ressourcen

Verwendung von Dummy-Variablen in der Regressionsanalyse
Was ist die Dummy-Variablenfalle?

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen