Come calcolare i quartili nei panda (con esempio)
In statistica i quartili sono valori che dividono un insieme di dati in quattro parti uguali.
Quando analizziamo una distribuzione, generalmente siamo interessati ai seguenti quartili:
- Primo quartile ( Q1 ): il valore situato al 25° percentile
- Secondo quartile ( Q2 ): il valore situato al 50° percentile
- Terzo quartile ( Q3 ): il valore situato al 75° percentile
È possibile utilizzare i seguenti metodi per calcolare i quartili di colonne in un DataFrame panda:
Metodo 1: calcolare i quartili per una colonna
df[' some_column ']. quantile ([ 0.25 , 0.5 , 0.75 ])
Metodo 2: calcolare i quartili per ciascuna colonna numerica
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )
I seguenti esempi mostrano come utilizzare ciascun metodo nella pratica con i seguenti DataFrame panda:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
' points ': [12, 14, 14, 16, 24, 26, 28, 30, 31, 35],
' assists ': [2, 2, 3, 3, 4, 6, 7, 8, 10, 15]})
#view DataFrame
print (df)
team points assists
0 to 12 2
1 B 14 2
2 C 14 3
3 D 16 3
4 E 24 4
5 F 26 6
6 G 28 7
7:30 8
8 I 31 10
9 D 35 15
Esempio 1: calcolare i quartili per una colonna
Il codice seguente mostra come calcolare i quartili solo per la colonna dei punti :
#calculate quartiles for points column
df[' points ']. quantile ([ 0.25 , 0.5 , 0.75 ])
0.25 14.5
0.50 25.0
0.75 29.5
Name: points, dtype: float64
Dal risultato possiamo vedere:
- Il primo quartile è 14,5 .
- Il secondo quartile è 25 .
- Il terzo quartile è 29,5 .
Conoscendo solo questi tre valori, abbiamo un’idea abbastanza chiara di come sono distribuiti i valori nella colonna dei punti .
Esempio 2: calcolare i quartili per ciascuna colonna numerica
Il codice seguente mostra come calcolare i quartili per ogni colonna numerica nel DataFrame:
#calculate quartiles for each numeric column in DataFrame
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )
assist points
0.25 14.5 3.00
0.50 25.0 5.00
0.75 29.5 7.75
L’output mostra i quartili delle due colonne numeriche del DataFrame.
Tieni presente che esistono diversi modi per calcolare i quartili di una distribuzione.
Fare riferimento alla pagina della documentazione di Pandas per vedere i diversi metodi utilizzati dalla funzione Pandas quantile() per calcolare i quartili.
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre attività comuni nei panda:
Come calcolare la variazione percentuale nei panda
Come calcolare la percentuale cumulativa nei panda
Come calcolare la percentuale del totale all’interno di un gruppo in panda