Come calcolare la media, la mediana e la moda nei panda


È possibile utilizzare le seguenti funzioni per calcolare la media, la mediana e la modalità di ciascuna colonna numerica in un DataFrame panda:

 print ( df.mean (numeric_only= True ))
print (df. median (numeric_only= True ))
print (df. mode (numeric_only= True ))

L’esempio seguente mostra come utilizzare queste funzioni nella pratica.

Esempio: calcolare media, mediana e modalità nei panda

Supponiamo di avere il seguente DataFrame panda che contiene informazioni sui punti segnati da vari giocatori di basket in quattro partite diverse:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' player ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' game1 ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' game2 ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' game3 ': [11, 8, 10, 6, 6, 5, 9, 12],
                   ' game4 ': [9, 8, 10, 9, 14, 15, 10, 11]})
                   
#view DataFrame
print (df)

  player game1 game2 game3 game4
0 A 18 5 11 9
1 B 22 7 8 8
2 C 19 7 10 10
3 D 14 9 6 9
4 E 14 12 6 14
5 F 11 9 5 15
6 G 20 9 9 10
7:28 4 12 11

Possiamo utilizzare la seguente sintassi per calcolare il valore medio di ciascuna colonna numerica:

 #calculate mean of each numeric column
print ( df.mean (numeric_only= True ))

game1 18,250
game2 7,750
game3 8.375
game4 10,750
dtype:float64

Dal risultato possiamo vedere:

  • Il valore medio nella colonna game1 è 18,25 .
  • Il valore medio nella colonna game2 è 7,75 .
  • Il valore medio nella colonna game3 è 8.375 .
  • Il valore medio nella colonna game4 è 10,75 .

Possiamo quindi utilizzare la seguente sintassi per calcolare il valore mediano di ciascuna colonna numerica:

 #calculate median of each numeric column
print (df. median (numeric_only= True ))

game1 18.5
game2 8.0
game3 8.5
game4 10.0
dtype:float64

Dal risultato possiamo vedere:

  • Il valore medio nella colonna game1 è 18,5 .
  • Il valore medio nella colonna game2 è 8 .
  • Il valore medio nella colonna game3 è 8,5 .
  • Il valore medio nella colonna game4 è 10 .

Possiamo quindi utilizzare la seguente sintassi per calcolare la modalità di ciascuna colonna numerica:

 #calculate mode of each numeric column
print (df. mode (numeric_only= True ))

   game1 game2 game3 game4
0 14.0 9.0 6.0 9
1 NaN NaN NaN 10

Dal risultato possiamo vedere:

  • La modalità nella colonna game1 è 14 .
  • La modalità nella colonna game2 è 9 .
  • La modalità nella colonna game3 è 6 .
  • La modalità nella colonna game4 è 9 e 10

Tieni presente che la colonna game4 aveva due modalità poiché c’erano due valori che apparivano più frequentemente in quella colonna.

Nota : puoi anche utilizzare la funzione description() in panda per generare statistiche più descrittive per ciascuna colonna.

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre operazioni comuni nei panda:

Come calcolare la media del gruppo nei panda
Come calcolare la mediana del gruppo nei panda
Come calcolare la modalità per gruppo in Pandas

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *