Panda: come utilizzare description() solo per mean e std


È possibile utilizzare la funzione description() per generare statistiche descrittive per le variabili in un DataFrame panda.

Per impostazione predefinita, la funzione description() calcola i seguenti parametri per ciascuna variabile numerica in un DataFrame:

  • conteggio (numero di valori)
  • media (valore medio)
  • std (deviazione standard)
  • min (valore minimo)
  • 25% (25° percentile)
  • 50% (50° percentile)
  • 75% (75° percentile)
  • max (valore massimo)

Tuttavia, è possibile utilizzare la seguente sintassi per calcolare solo la media e la deviazione standard di ciascuna variabile numerica:

 df. describe (). loc [[' mean ', ' std ']]

L’esempio seguente mostra come utilizzare questa sintassi nella pratica.

Esempio: utilizzare description() in Panda per calcolare solo la media e lo standard

Supponiamo di avere il seguente DataFrame panda che contiene informazioni su vari giocatori di basket:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Se utilizziamo la funzione description() , possiamo calcolare statistiche descrittive per ciascuna variabile numerica nel DataFrame:

 #calculate descriptive statistics for each numeric variable
df. describe ()

points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
25% 14,000000 6,50000 6,000000
50% 18.500000 8.00000 8.500000
75% 20.500000 9.00000 10.250000
max 28.000000 12.00000 12.000000

Tuttavia, possiamo utilizzare la seguente sintassi per calcolare solo la media e la deviazione standard di ciascuna variabile numerica:

 #only calculate mean and standard deviation of each numeric variable
df. describe (). loc [[' mean ', ' std ']]

           points assists rebounds
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994

Tieni presente che l’output include solo la media e la deviazione standard per ciascuna variabile numerica.

Tieni presente che la funzione description() calcola ancora ogni statistica descrittiva come prima, ma abbiamo utilizzato la funzione loc per selezionare solo le righe denominate mean e std nell’output.

Correlati: Pandas loc vs iloc: qual è la differenza?

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre operazioni comuni nei panda:

Panda: come usare description() per gruppo
Panda: come usare description() con percentili specifici
Panda: come usare description() e rimuovere la notazione scientifica

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *