Panda: come usare description() per gruppo


È possibile utilizzare la funzione description() per generare statistiche descrittive per le variabili in un DataFrame panda.

È possibile utilizzare la seguente sintassi di base per utilizzare la funzione description() con la funzione groupby() nei panda:

 df. groupby (' group_var ')[' values_var ']. describe ()

L’esempio seguente mostra come utilizzare questa sintassi nella pratica.

Esempio: usa description() per gruppo in Pandas

Supponiamo di avere il seguente DataFrame panda che contiene informazioni sui giocatori di basket di due squadre diverse:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [8, 12, 14, 14, 15, 22, 27, 24],
                   ' assists ':[2, 2, 3, 5, 7, 6, 8, 12]})

#view DataFrame
print (df)

  team points assists
0 to 8 2
1 to 12 2
2 to 14 3
3 to 14 5
4 B 15 7
5 B 22 6
6 B 27 8
7 B 24 12

Possiamo utilizzare la funzione description() con la funzione groupby() per riassumere i valori nella colonna dei punti per ogni squadra :

 #summarize points by team
df. groupby (' team ')[' points ']. describe ()

count mean std min 25% 50% 75% max
team								
A 4.0 12.0 2.828427 8.0 11.00 13.0 14.00 14.0
B 4.0 22.0 5.099020 15.0 20.25 23.0 24.75 27.0

Dal risultato possiamo vedere i seguenti valori per la variabile punti per ciascuna squadra:

  • conteggio (numero di osservazioni)
  • media (valore medio del punto)
  • std (deviazione standard dei valori dei punti)
  • min (valore minimo del punto)
  • 25 % (25° percentile dei punti)
  • 50 % (50° percentile (ovvero mediana) dei punti)
  • 75 % (75° percentile dei punti)
  • max (valore massimo del punto)

Se vuoi che i risultati vengano visualizzati in formato DataFrame, puoi utilizzare l’argomento reset_index() :

 #summarize points by team
df. groupby (' team ')[' points ']. describe (). reset_index ()

        team count mean std min 25% 50% 75% max
0 A 4.0 12.0 2.828427 8.0 11.00 13.0 14.00 14.0
1 B 4.0 22.0 5.099020 15.0 20.25 23.0 24.75 27.0

La variabile del team è ora una colonna nel DataFrame e i valori dell’indice sono 0 e 1.

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre operazioni comuni nei panda:

Panda: come calcolare il cumulato per gruppo
Panda: come contare i valori unici per gruppo
Panda: come calcolare la correlazione per gruppo

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *