Pandas: wie man beschreiben() verwendet und die wissenschaftliche notation entfernt
Sie können die Funktion „beschreiben()“ verwenden, umbeschreibende Statistiken für Variablen in einem Pandas-DataFrame zu generieren.
Um die wissenschaftliche Notation aus der Ausgabe der beschreiben()- Funktion zu entfernen, können Sie die folgenden Methoden verwenden:
Methode 1: Entfernen Sie die wissenschaftliche Notation, wenn Sie beschreiben() mit einer Spalte verwenden
df[' my_column ']. describe (). apply ( lambda x: format (x, ' f '))
Methode 2: Entfernen Sie die wissenschaftliche Notation, wenn Sie beschreiben() mit mehreren Spalten verwenden
df. describe (). apply ( lambda x: x.apply (' {0:.5f} '. format ))
Die folgenden Beispiele zeigen, wie jede Methode in der Praxis mit dem folgenden Pandas DataFrame verwendet wird:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' store ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
' sales ': [8450550, 406530, 53000, 6000, 2000, 4000, 5400, 6500],
' returns ':[2212200, 145200, 300, 2500, 700, 600, 800, 1200]})
#view DataFrame
print (df)
store sales returns
0 A 8450550 2212200
1 A 406530 145200
2 A 53000 300
3 A 6000 2500
4 B 2000 700
5 B 4000 600
6 B 5400 800
7 B 6500 1200
Beispiel 1: Entfernen Sie die wissenschaftliche Notation, wenn Sie beschreiben() mit einer Spalte verwenden
Wenn wir die Funktion beschreiben() verwenden, um deskriptive Statistiken für die Verkaufsspalte zu berechnen, werden die Ausgabewerte in wissenschaftlicher Notation angezeigt:
#calculate descriptive statistics for sales column
df[' sales ']. describe ()
count 8.000000e+00
mean 1.116748e+06
std 2.966552e+06
min 2.000000e+03
25% 5.050000e+03
50% 6.250000e+03
75% 1.413825e+05
max 8.450550e+06
Name: sales, dtype: float64
Beachten Sie, dass jeder der Ausgabewerte in wissenschaftlicher Notation angezeigt wird.
Wir können die folgende Syntax verwenden, um die wissenschaftliche Notation aus der Ausgabe zu entfernen:
#calculate descriptive statistics for sales column and suppress scientific notation
df[' sales ']. describe (). apply ( lambda x: format (x, ' f '))
count 8.000000
mean 1116747.500000
std 2966551.594104
min 2000.000000
25% 5050.000000
50% 6250.000000
75% 141382.500000
max 8450550.000000
Name: sales, dtype: object
Beachten Sie, dass die Werte in der Ausgabe jetzt ohne wissenschaftliche Notation angezeigt werden.
Beispiel 2: Entfernen Sie die wissenschaftliche Notation, wenn Sie beschreiben() mit mehreren Spalten verwenden
Wenn wir die Funktion „beschreiben()“ verwenden, um deskriptive Statistiken für jede numerische Spalte zu berechnen, werden die Ausgabewerte in wissenschaftlicher Notation angezeigt:
#calculate descriptive statistics for each numeric column
df. describe ()
sales returns
count 8.000000e+00 8.000000e+00
mean 1.116748e+06 2.954375e+05
std 2.966552e+06 7.761309e+05
min 2.000000e+03 3.000000e+02
25% 5.050000e+03 6.750000e+02
50% 6.250000e+03 1.000000e+03
75% 1.413825e+05 3.817500e+04
max 8.450550e+06 2.212200e+06
Beachten Sie, dass jeder der Ausgabewerte in wissenschaftlicher Notation angezeigt wird.
Wir können die folgende Syntax verwenden, um die wissenschaftliche Notation aus der Ausgabe zu entfernen:
#calculate descriptive statistics for numerical columns and suppress scientific notation
df. describe (). apply ( lambda x: x.apply (' {0:.5f} '. format ))
sales returns
count 8.00000 8.00000
mean 1116747.50000 295437.50000
std 2966551.59410 776130.93692
min 2000.00000 300.00000
25% 5050.00000 675.00000
50% 6250.00000 1000.00000
75% 141382.50000 38175.00000
max 8450550.00000 2212200.00000
Beachten Sie, dass die Werte in der Ausgabe jetzt ohne wissenschaftliche Notation angezeigt werden.
Beachten Sie, dass wir in diesem Beispiel 0:.5f verwendet haben, um 5 Dezimalstellen in der Ausgabe anzuzeigen.
Ersetzen Sie die 5 gerne durch eine andere Zahl, um eine andere Anzahl an Dezimalstellen anzuzeigen.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:
Pandas: So berechnen Sie die kumulative Summe pro Gruppe
Pandas: So zählen Sie eindeutige Werte nach Gruppen
Pandas: So berechnen Sie die Korrelation nach Gruppen