Come raggruppare i dati in python: con esempi

Di Benjamin anderson Luglio 21, 2023 Guida 0 commenti

È possibile utilizzare la seguente sintassi di base per eseguire il raggruppamento dei dati su un DataFrame panda:

 import pandas as pd

#perform binning with 3 bins
df[' new_bin '] = pd. qcut (df[' variable_name '], q= 3 )

I seguenti esempi mostrano come utilizzare questa sintassi in pratica con i seguenti DataFrame panda:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' points ': [4, 4, 7, 8, 12, 13, 15, 18, 22, 23, 23, 25],
                   ' assists ': [2, 5, 4, 7, 7, 8, 5, 4, 5, 11, 13, 8],
                   ' rebounds ': [7, 7, 4, 6, 3, 8, 9, 9, 12, 11, 8, 9]})

#view DataFrame
print (df)

    points assists rebounds
0 4 2 7
1 4 5 7
2 7 4 4
3 8 7 6
4 12 7 3
5 13 8 8
6 15 5 9
7 18 4 9
8 22 5 12
9 23 11 11
10 23 13 8
11 25 8 9

Esempio 1: eseguire il raggruppamento dei dati anagrafici

Il codice seguente mostra come eseguire il raggruppamento dei dati sulla variabile points utilizzando la funzione qcut() con segni di interruzione specifici:

 #perform data binning on variable points
df[' points_bin '] = pd. qcut (df[' points '], q= 3 )

#view updated DataFrame
print (df)

    points assists rebounds points_bin
0 4 2 7 (3,999, 10,667]
1 4 5 7 (3,999, 10,667]
2 7 4 4 (3,999, 10,667]
3 8 7 6 (3,999, 10,667]
4 12 7 3 (10,667, 19,333]
5 13 8 8 (10,667, 19,333]
6 15 5 9 (10,667, 19,333]
7 18 4 9 (10,667, 19,333]
8 22 5 12 (19.333, 25.0]
9 23 11 11 (19.333, 25.0]
10 23 13 8 (19.333, 25.0]
11 25 8 9 (19.333, 25.0]

Nota che ogni riga nel frame dati è stata posizionata in uno dei tre gruppi in base al valore della colonna punto.

Possiamo usare la funzione value_counts() per trovare quante righe sono state inserite in ciascun contenitore:

 #count frequency of each bin
df[' points_bin ']. value_counts ()

(3,999, 10,667] 4
(10.667, 19.333] 4
(19.333, 25.0] 4
Name: points_bin, dtype: int64

Possiamo vedere che ogni contenitore contiene 4 osservazioni.

Esempio 2: eseguire il clustering dei dati con quantili specifici

Possiamo anche eseguire il clustering dei dati utilizzando quantili specifici:

 #perform data binning on variable points with specific quantiles
df[' points_bin '] = pd. qcut (df[' points '], q=[0, .2, .4, .6, .8, 1])

#view updated DataFrame
print (df)

    points assists rebounds points_bin
0 4 2 7 (3.999, 7.2]
1 4 5 7 (3.999, 7.2]
2 7 4 4 (3.999, 7.2]
3 8 7 6 (7.2, 12.4]
4 12 7 3 (7.2, 12.4]
5 13 8 8 (12.4, 16.8]
6 15 5 9 (12.4, 16.8]
7 18 4 9 (16.8, 22.8]
8 22 5 12 (16.8, 22.8]
9 23 11 11 (22.8, 25.0]
10 23 13 8 (22.8, 25.0]
11 25 8 9 (22.8, 25.0]

Esempio 3: eseguire il raggruppamento dei dati con etichette

Possiamo anche eseguire il raggruppamento dei dati utilizzando quantili ed etichette specifici:

 #perform data binning on points variable with specific quantiles and labels
df[' points_bin '] = pd. qcut (df[' points '],
                           q=[0, .2, .4, .6, .8, 1],
                           labels=[' A ',' B ',' C ',' D ',' E '])

#view updated DataFrame
print (df)

    points assists rebounds points_bin
0 4 2 7 A
1 4 5 7 A
2 7 4 4 A
3 8 7 6 B
4 12 7 3 B
5 13 8 8 C
6 15 5 9 C
7 18 4 9 D
8 22 5 12 D
9 23 11 11 E
10 23 13 8 E
11 25 8 9 E

Tieni presente che a ogni riga è stato assegnato un contenitore in base al valore della colonna punto e che i contenitori sono stati etichettati utilizzando lettere.

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre attività comuni nei panda:

Panda: come utilizzare la funzione value_counts()
Panda: come creare una tabella pivot con numero di valori
Panda: come contare le occorrenze di valore specifico in una colonna

Informazioni sull'autore

Benjamin anderson

Ciao, sono Benjamin, un professore di statistica in pensione diventato insegnante dedicato di Statorials. Con una vasta esperienza e competenza nel campo della statistica, sono ansioso di condividere le mie conoscenze per potenziare gli studenti attraverso Statorials. Scopri di più