Come calcolare i quartili nei panda (con esempio)


In statistica i quartili sono valori che dividono un insieme di dati in quattro parti uguali.

Quando analizziamo una distribuzione, generalmente siamo interessati ai seguenti quartili:

  • Primo quartile ( Q1 ): il valore situato al 25° percentile
  • Secondo quartile ( Q2 ): il valore situato al 50° percentile
  • Terzo quartile ( Q3 ): il valore situato al 75° percentile

È possibile utilizzare i seguenti metodi per calcolare i quartili di colonne in un DataFrame panda:

Metodo 1: calcolare i quartili per una colonna

 df[' some_column ']. quantile ([ 0.25 , 0.5 , 0.75 ])

Metodo 2: calcolare i quartili per ciascuna colonna numerica

 df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )

I seguenti esempi mostrano come utilizzare ciascun metodo nella pratica con i seguenti DataFrame panda:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
                   ' points ': [12, 14, 14, 16, 24, 26, 28, 30, 31, 35],
                   ' assists ': [2, 2, 3, 3, 4, 6, 7, 8, 10, 15]})

#view DataFrame
print (df)

  team points assists
0 to 12 2
1 B 14 2
2 C 14 3
3 D 16 3
4 E 24 4
5 F 26 6
6 G 28 7
7:30 8
8 I 31 10
9 D 35 15

Esempio 1: calcolare i quartili per una colonna

Il codice seguente mostra come calcolare i quartili solo per la colonna dei punti :

 #calculate quartiles for points column
df[' points ']. quantile ([ 0.25 , 0.5 , 0.75 ])

0.25 14.5
0.50 25.0
0.75 29.5
Name: points, dtype: float64

Dal risultato possiamo vedere:

  • Il primo quartile è 14,5 .
  • Il secondo quartile è 25 .
  • Il terzo quartile è 29,5 .

Conoscendo solo questi tre valori, abbiamo un’idea abbastanza chiara di come sono distribuiti i valori nella colonna dei punti .

Esempio 2: calcolare i quartili per ciascuna colonna numerica

Il codice seguente mostra come calcolare i quartili per ogni colonna numerica nel DataFrame:

 #calculate quartiles for each numeric column in DataFrame
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )

      assist points
0.25 14.5 3.00
0.50 25.0 5.00
0.75 29.5 7.75

L’output mostra i quartili delle due colonne numeriche del DataFrame.

Tieni presente che esistono diversi modi per calcolare i quartili di una distribuzione.

Fare riferimento alla pagina della documentazione di Pandas per vedere i diversi metodi utilizzati dalla funzione Pandas quantile() per calcolare i quartili.

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre attività comuni nei panda:

Come calcolare la variazione percentuale nei panda
Come calcolare la percentuale cumulativa nei panda
Come calcolare la percentuale del totale all’interno di un gruppo in panda

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *