Come calcolare le statistiche di riepilogo per un pandas dataframe


È possibile utilizzare i seguenti metodi per calcolare le statistiche di riepilogo per le variabili in un DataFrame panda:

Metodo 1: calcolare le statistiche riassuntive per tutte le variabili numeriche

 df. describe ()

Metodo 2: calcolare le statistiche di riepilogo per tutte le variabili stringa

 df. describe (include=' object ')

Metodo 3: calcolare le statistiche riassuntive raggruppate per una variabile

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

I seguenti esempi mostrano come utilizzare ciascun metodo nella pratica con i seguenti DataFrame panda:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

Esempio 1: calcolare le statistiche riassuntive per tutte le variabili numeriche

Il codice seguente mostra come calcolare le statistiche di riepilogo per ciascuna variabile numerica nel DataFrame:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

Possiamo vedere le seguenti statistiche riassuntive per ciascuna delle tre variabili numeriche:

  • conteggio: il numero di valori diversi da zero
  • media : il valore medio
  • std : la deviazione standard
  • min: il valore minimo
  • 25% : il valore al 25° percentile
  • 50% : il valore al 50° percentile (anche la mediana)
  • 75% : il valore al 75° percentile
  • max : il valore massimo

Esempio 2: calcolare le statistiche di riepilogo per tutte le variabili stringa

Il codice seguente mostra come calcolare le statistiche di riepilogo per ciascuna variabile stringa nel DataFrame:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

Possiamo vedere le seguenti statistiche riassuntive per la variabile stringa nel nostro DataFrame:

  • count : il numero di valori diversi da zero
  • unique : il numero di valori univoci
  • in alto: il valore più frequente
  • freq : il numero di valori che appaiono più frequentemente

Esempio 3: calcolare le statistiche riassuntive raggruppate per una variabile

Il codice seguente mostra come calcolare il valore medio di tutte le variabili numeriche, raggruppate per variabile del team :

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

L’output mostra il valore medio delle variabili punti , assist e rimbalzi , raggruppate per variabile squadra .

Tieni presente che possiamo utilizzare una sintassi simile per calcolare una statistica riassuntiva diversa, come la mediana:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

L’output mostra il valore mediano delle variabili punti , assist e rimbalzi , raggruppate per variabile di squadra .

Nota : puoi trovare la documentazione completa della funzione descrizione in panda qui .

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre attività comuni dei panda:

Come contare gli avvistamenti di gruppo nei panda
Come trovare il valore massimo per gruppo su Pandas
Come identificare i valori anomali nei panda

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *