Pandas: so verwenden sie beschreiben() nur für mittelwert und std


Sie können die Funktion „beschreiben()“ verwenden, umbeschreibende Statistiken für Variablen in einem Pandas-DataFrame zu generieren.

Standardmäßig berechnet die Funktion discover() die folgenden Metriken für jede numerische Variable in einem DataFrame:

  • count (Anzahl der Werte)
  • Durchschnitt (Durchschnittswert)
  • std (Standardabweichung)
  • min (Mindestwert)
  • 25 % (25. Perzentil)
  • 50 % (50. Perzentil)
  • 75 % (75. Perzentil)
  • max (Maximalwert)

Sie können jedoch die folgende Syntax verwenden, um nur den Mittelwert und die Standardabweichung jeder numerischen Variablen zu berechnen:

 df. describe (). loc [[' mean ', ' std ']]

Das folgende Beispiel zeigt, wie diese Syntax in der Praxis verwendet wird.

Beispiel: Verwenden Sie beschreiben() in Pandas, um nur den Mittelwert und den Standard zu berechnen

Angenommen, wir haben den folgenden Pandas-DataFrame, der Informationen über verschiedene Basketballspieler enthält:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Wenn wir die Funktion beschreiben() verwenden, können wir beschreibende Statistiken für jede numerische Variable im DataFrame berechnen:

 #calculate descriptive statistics for each numeric variable
df. describe ()

points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
25% 14,000000 6,50000 6,000000
50% 18.500000 8.00000 8.500000
75% 20.500000 9.00000 10.250000
max 28.000000 12.00000 12.000000

Wir können jedoch die folgende Syntax verwenden, um nur den Mittelwert und die Standardabweichung jeder numerischen Variablen zu berechnen:

 #only calculate mean and standard deviation of each numeric variable
df. describe (). loc [[' mean ', ' std ']]

           points assists rebounds
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994

Beachten Sie, dass die Ausgabe nur den Mittelwert und die Standardabweichung für jede numerische Variable enthält.

Beachten Sie, dass die Funktion „beschreiben()“ immer noch jede beschreibende Statistik wie zuvor berechnet hat, wir jedoch die Funktion „ loc“ verwendet haben, um nur die Zeilen mit den Namen „mean “ und „std “ in der Ausgabe auszuwählen.

Verwandte Themen: Pandas loc vs. iloc: Was ist der Unterschied?

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:

Pandas: wie man beschreiben() nach Gruppen verwendet
Pandas: Verwendung von beschreiben() mit bestimmten Perzentilen
Pandas: wie man beschreiben() verwendet und die wissenschaftliche Notation entfernt

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert