Panda: come utilizzare description() per variabili categoriali


Per impostazione predefinita, la funzione description() in panda calcola le statistiche descrittive per tutte le variabili numeriche in un DataFrame.

Tuttavia, è anche possibile utilizzare i seguenti metodi per calcolare le statistiche descrittive per le variabili categoriali :

Metodo 1: calcolo delle statistiche descrittive per le variabili categoriali

 df. describe (include=' object ')

Questo metodo calcolerà count , unique , top e freq per ogni variabile categoriale in un DataFrame.

Metodo 2: calcolare le statistiche descrittive categoriali per tutte le variabili

 df. astype (' object '). describe ()

Questo metodo calcolerà count , unique , top e freq per ogni variabile in un DataFrame.

Gli esempi seguenti mostrano come utilizzare ciascun metodo con il seguente DataFrame panda che contiene informazioni su vari giocatori di basket:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Esempio 1: calcolo delle statistiche descrittive per le variabili categoriali

Possiamo utilizzare la seguente sintassi per calcolare le statistiche descrittive per ciascuna variabile categoriale nel DataFrame:

 #calculate descriptive statistics for categorical variables only
df. describe (include=' object ')

team
count 8
single 8
top A
freq 1

L’output visualizza varie statistiche descrittive per la singola variabile categoriale ( team ) nel DataFrame.

Ecco come interpretare il risultato:

  • count : ci sono 8 valori nella colonna della squadra.
  • unique : sono presenti 8 valori univoci nella colonna della squadra.
  • top : Il valore “top” (cioè il più alto dell’alfabeto) è A.
  • freq : questo valore massimo appare 1 volta.

Esempio 2: calcolare le statistiche descrittive categoriali per tutte le variabili

Possiamo utilizzare la seguente sintassi per calcolare count , unique , top e freq per ciascuna variabile nel DataFrame:

 #calculate categorical descriptive statistics for all variables
df. astype (' object '). describe ()

        team points assists rebounds
count 8 8 8 8
single 8 7 5 7
top A 14 9 6
freq 1 2 3 2

L’output visualizza count , unique , top e freq per ogni variabile nel DataFrame, incluse le variabili numeriche.

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre operazioni comuni nei panda:

Panda: come usare description() per gruppo
Panda: come usare description() con percentili specifici
Panda: come usare description() e rimuovere la notazione scientifica

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *