Panda: come riempire i valori nan con la media (3 esempi)


È possibile utilizzare la funzione fillna() per sostituire i valori NaN in un DataFrame panda.

Ecco tre modi comuni per utilizzare questa funzionalità:

Metodo 1: inserisci i valori NaN in una colonna con la media

 df[' col1 '] = df[' col1 ']. fillna (df[' col1 ']. mean ())

Metodo 2: riempi i valori NaN in più colonne con la media

 df[[' col1 ', ' col2 ']] = df[[' col1 ', ' col2 ']]. fillna (df[[' col1 ',' col2 ']]. mean ())

Metodo 3: inserisci i valori NaN in tutte le colonne con la media

 df = df. fillna ( df.mean ())

I seguenti esempi mostrano come utilizzare ciascun metodo nella pratica con i seguenti DataFrame panda:

 import numpy as np
import pandas as pd

#create DataFrame with some NaN values
df = pd. DataFrame ({' rating ': [np.nan, 85, np.nan, 88, 94, 90, 76, 75, 87, 86],
                   ' points ': [25, np.nan, 14, 16, 27, 20, 12, 15, 14, 19],
                   ' assists ': [5, 7, 7, np.nan, 5, 7, 6, 9, 9, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 9, 6, 10, 10, 7]})

#view DataFrame
df

        rating points assists rebounds
0 NaN 25.0 5.0 11
1 85.0 NaN 7.0 8
2 NaN 14.0 7.0 10
3 88.0 16.0 NaN 6
4 94.0 27.0 5.0 6
5 90.0 20.0 7.0 9
6 76.0 12.0 6.0 6
7 75.0 15.0 9.0 10
8 87.0 14.0 9.0 10
9 86.0 19.0 5.0 7

Esempio 1: inserisci i valori NaN in una colonna con la media

Il codice seguente mostra come riempire i valori NaN nella colonna rating con il valore medio della colonna rating :

 #fill NaNs with column mean in 'rating' column
df[' rating '] = df[' rating ']. fillna (df[' rating ']. mean ())

#view updated DataFrame
df

	rating points assists rebounds
0 85.125 25.0 5.0 11
1 85,000 NaN 7.0 8
2 85.125 14.0 7.0 10
3 88,000 16.0 NaN 6
4 94,000 27.0 5.0 6
5 90,000 20.0 7.0 9
6 76,000 12.0 6.0 6
7 75,000 15.0 9.0 10
8 87,000 14.0 9.0 10
9 86,000 19.0 5.0 7

Il valore medio nella colonna di valutazione era 85.125 , quindi ciascuno dei valori NaN nella colonna di valutazione è stato popolato con quel valore.

Esempio 2: riempi i valori NaN in più colonne con la media

Il codice seguente mostra come popolare i valori NaN nelle colonne rating e punti con le rispettive medie di colonna:

 #fill NaNs with column means in 'rating' and 'points' columns
df[[' rating ', ' points ']] = df[[' rating ', ' points ']]. fillna (df[[' rating ',' points ']]. mean ())

#view updated DataFrame
df

	rating points assists rebounds
0 85.125 25.0 5.0 11
1 85,000 18.0 7.0 8
2 85.125 14.0 7.0 10
3 88,000 16.0 NaN 6
4 94,000 27.0 5.0 6
5 90,000 20.0 7.0 9
6 76,000 12.0 6.0 6
7 75,000 15.0 9.0 10
8 87,000 14.0 9.0 10
9 86,000 19.0 5.0 7

I valori NaN nelle colonne dei voti e dei punti sono stati popolati con le rispettive medie di colonna.

Esempio 3: riempi i valori NaN in tutte le colonne con la media

Il codice seguente mostra come riempire i valori NaN in ciascuna colonna con le medie delle colonne:

 #fill NaNs with column means in each column 
df = df. fillna ( df.mean ())

#view updated DataFrame
df

        rating points assists rebounds
0 85.125 25.0 5.000000 11
1 85,000 18.0 7,000000 8
2 85.125 14.0 7.000000 10
3 88,000 16.0 6.666667 6
4 94,000 27.0 5,000000 6
5 90,000 20.0 7,000000 9
6 76,000 12.0 6,000000 6
7 75,000 15.0 9,000000 10
8 87,000 14.0 9,000000 10
9 86,000 19.0 5,000000 7

Tieni presente che i valori NaN in ciascuna colonna sono stati riempiti con la media della rispettiva colonna.

Puoi trovare la documentazione online completa per la funzione fillna() qui .

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre operazioni comuni nei panda:

Come contare i valori mancanti nei panda
Come eliminare righe con valori NaN in Panda
Come eliminare righe contenenti un valore specifico in Pandas

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *