Pandas: verwendung von beschreiben() für kategoriale variablen


Standardmäßig berechnet die Funktion discover() in Pandas beschreibende Statistiken für alle numerischen Variablen in einem DataFrame.

Sie können jedoch auch die folgenden Methoden verwenden, um deskriptive Statistiken für kategoriale Variablen zu berechnen:

Methode 1: Berechnen Sie deskriptive Statistiken für kategoriale Variablen

 df. describe (include=' object ')

Diese Methode berechnet count , unique , top und freq für jede kategoriale Variable in einem DataFrame.

Methode 2: Berechnen Sie kategoriale deskriptive Statistiken für alle Variablen

 df. astype (' object '). describe ()

Diese Methode berechnet count , unique , top und freq für jede Variable in einem DataFrame.

Die folgenden Beispiele zeigen, wie jede Methode mit dem folgenden Pandas-DataFrame verwendet wird, der Informationen über verschiedene Basketballspieler enthält:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Beispiel 1: Berechnen Sie deskriptive Statistiken für kategoriale Variablen

Wir können die folgende Syntax verwenden, um deskriptive Statistiken für jede kategoriale Variable im DataFrame zu berechnen:

 #calculate descriptive statistics for categorical variables only
df. describe (include=' object ')

team
count 8
single 8
top A
freq 1

Die Ausgabe zeigt verschiedene beschreibende Statistiken für die einzelne kategoriale Variable ( team ) im DataFrame an.

So interpretieren Sie das Ergebnis:

  • count : Die Teamspalte enthält 8 Werte.
  • unique : Die Teamspalte enthält 8 eindeutige Werte.
  • top : Der „oberste“ Wert (d. h. der höchste im Alphabet) ist A.
  • freq : Dieser Maximalwert erscheint 1 Mal.

Beispiel 2: Berechnen Sie kategoriale deskriptive Statistiken für alle Variablen

Wir können die folgende Syntax verwenden, um count , unique , top und freq für jede Variable im DataFrame zu berechnen:

 #calculate categorical descriptive statistics for all variables
df. astype (' object '). describe ()

        team points assists rebounds
count 8 8 8 8
single 8 7 5 7
top A 14 9 6
freq 1 2 3 2

Die Ausgabe zeigt count , unique , top und freq für jede Variable im DataFrame an, einschließlich numerischer Variablen.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:

Pandas: wie man beschreiben() nach Gruppen verwendet
Pandas: Verwendung von beschreiben() mit bestimmten Perzentilen
Pandas: wie man beschreiben() verwendet und die wissenschaftliche Notation entfernt

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert