Panda: come utilizzare description() per variabili categoriali
Per impostazione predefinita, la funzione description() in panda calcola le statistiche descrittive per tutte le variabili numeriche in un DataFrame.
Tuttavia, è anche possibile utilizzare i seguenti metodi per calcolare le statistiche descrittive per le variabili categoriali :
Metodo 1: calcolo delle statistiche descrittive per le variabili categoriali
df. describe (include=' object ')
Questo metodo calcolerà count , unique , top e freq per ogni variabile categoriale in un DataFrame.
Metodo 2: calcolare le statistiche descrittive categoriali per tutte le variabili
df. astype (' object '). describe ()
Questo metodo calcolerà count , unique , top e freq per ogni variabile in un DataFrame.
Gli esempi seguenti mostrano come utilizzare ciascun metodo con il seguente DataFrame panda che contiene informazioni su vari giocatori di basket:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
Esempio 1: calcolo delle statistiche descrittive per le variabili categoriali
Possiamo utilizzare la seguente sintassi per calcolare le statistiche descrittive per ciascuna variabile categoriale nel DataFrame:
#calculate descriptive statistics for categorical variables only
df. describe (include=' object ')
team
count 8
single 8
top A
freq 1
L’output visualizza varie statistiche descrittive per la singola variabile categoriale ( team ) nel DataFrame.
Ecco come interpretare il risultato:
- count : ci sono 8 valori nella colonna della squadra.
- unique : sono presenti 8 valori univoci nella colonna della squadra.
- top : Il valore “top” (cioè il più alto dell’alfabeto) è A.
- freq : questo valore massimo appare 1 volta.
Esempio 2: calcolare le statistiche descrittive categoriali per tutte le variabili
Possiamo utilizzare la seguente sintassi per calcolare count , unique , top e freq per ciascuna variabile nel DataFrame:
#calculate categorical descriptive statistics for all variables df. astype (' object '). describe () team points assists rebounds count 8 8 8 8 single 8 7 5 7 top A 14 9 6 freq 1 2 3 2
L’output visualizza count , unique , top e freq per ogni variabile nel DataFrame, incluse le variabili numeriche.
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre operazioni comuni nei panda:
Panda: come usare description() per gruppo
Panda: come usare description() con percentili specifici
Panda: come usare description() e rimuovere la notazione scientifica