Panda: come usare description() per gruppo
È possibile utilizzare la funzione description() per generare statistiche descrittive per le variabili in un DataFrame panda.
È possibile utilizzare la seguente sintassi di base per utilizzare la funzione description() con la funzione groupby() nei panda:
df. groupby (' group_var ')[' values_var ']. describe ()
L’esempio seguente mostra come utilizzare questa sintassi nella pratica.
Esempio: usa description() per gruppo in Pandas
Supponiamo di avere il seguente DataFrame panda che contiene informazioni sui giocatori di basket di due squadre diverse:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
' points ': [8, 12, 14, 14, 15, 22, 27, 24],
' assists ':[2, 2, 3, 5, 7, 6, 8, 12]})
#view DataFrame
print (df)
team points assists
0 to 8 2
1 to 12 2
2 to 14 3
3 to 14 5
4 B 15 7
5 B 22 6
6 B 27 8
7 B 24 12
Possiamo utilizzare la funzione description() con la funzione groupby() per riassumere i valori nella colonna dei punti per ogni squadra :
#summarize points by team
df. groupby (' team ')[' points ']. describe ()
count mean std min 25% 50% 75% max
team
A 4.0 12.0 2.828427 8.0 11.00 13.0 14.00 14.0
B 4.0 22.0 5.099020 15.0 20.25 23.0 24.75 27.0
Dal risultato possiamo vedere i seguenti valori per la variabile punti per ciascuna squadra:
- conteggio (numero di osservazioni)
- media (valore medio del punto)
- std (deviazione standard dei valori dei punti)
- min (valore minimo del punto)
- 25 % (25° percentile dei punti)
- 50 % (50° percentile (ovvero mediana) dei punti)
- 75 % (75° percentile dei punti)
- max (valore massimo del punto)
Se vuoi che i risultati vengano visualizzati in formato DataFrame, puoi utilizzare l’argomento reset_index() :
#summarize points by team df. groupby (' team ')[' points ']. describe (). reset_index () team count mean std min 25% 50% 75% max 0 A 4.0 12.0 2.828427 8.0 11.00 13.0 14.00 14.0 1 B 4.0 22.0 5.099020 15.0 20.25 23.0 24.75 27.0
La variabile del team è ora una colonna nel DataFrame e i valori dell’indice sono 0 e 1.
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre operazioni comuni nei panda:
Panda: come calcolare il cumulato per gruppo
Panda: come contare i valori unici per gruppo
Panda: come calcolare la correlazione per gruppo