Come standardizzare i dati in python: con esempi

Di Benjamin anderson Luglio 24, 2023 Guida 0 commenti

Standardizzare un set di dati significa ridimensionare tutti i valori nel set di dati in modo tale che il valore medio sia 0 e la deviazione standard sia 1.

Usiamo la seguente formula per normalizzare i valori in un set di dati:

x _nuovo = (x _i – x ) / s

Oro:

x _i : l’i ^-esimo valore del set di dati
x : Il campione significa
s : la deviazione standard del campione

Possiamo usare la seguente sintassi per normalizzare rapidamente tutte le colonne in un DataFrame panda in Python:

 (df- df.mean ())/df. std ()

Gli esempi seguenti mostrano come utilizzare questa sintassi nella pratica.

Esempio 1: standardizzare tutte le colonne DataFrame

Il codice seguente mostra come standardizzare tutte le colonne in un DataFrame panda:

 import pandas as pd

#create data frame
df = pd. DataFrame ({' y ': [8, 12, 15, 14, 19, 23, 25, 29],
                   ' x1 ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' x2 ': [11, 8, 10, 6, 6, 5, 9, 12],
                   ' x3 ': [2, 2, 3, 2, 5, 5, 7, 9]})

#view data frame
df

	y x1 x2 x3
0 8 5 11 2
1 12 7 8 2
2 15 7 10 3
3 14 9 6 2
4 19 12 6 5
5 23 9 5 5
6 25 9 9 7
7 29 4 12 9

#standardize the values in each column
df_new = (df- df.mean ())/df. std ()

#view new data frame
df_new

	        y x1 x2 x3
0 -1.418032 -1.078639 1.025393 -0.908151
1 -0.857822 -0.294174 -0.146485 -0.908151
2 -0.437664 -0.294174 0.634767 -0.525772
3 -0.577717 0.490290 -0.927736 -0.908151
4 0.122546 1.666987 -0.927736 0.238987
5 0.682756 0.490290 -1.318362 0.238987
6 0.962861 0.490290 0.244141 1.003746
7 1.523071 -1.470871 1.416019 1.768505

Possiamo verificare che la media e la deviazione standard di ciascuna colonna sono rispettivamente pari a 0 e 1:

 #view mean of each column
df_new. mean ()

y 0.000000e+00
x1 2.775558e-17
x2 -4.163336e-17
x3 5.551115e-17
dtype:float64

#view standard deviation of each column
df_new. std ()

y 1.0
x1 1.0
x2 1.0
x3 1.0
dtype:float64

Esempio 2: normalizzare colonne DataFrame specifiche

A volte potresti voler normalizzare solo colonne specifiche in un DataFrame.

Ad esempio, per molti algoritmi di machine learning, potresti voler standardizzare solo le variabili predittive prima di adattare un determinato modello ai dati.

Il codice seguente mostra come standardizzare colonne specifiche in un DataFrame panda:

 import pandas as pd

#create data frame
df = pd. DataFrame ({' y ': [8, 12, 15, 14, 19, 23, 25, 29],
                   ' x1 ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' x2 ': [11, 8, 10, 6, 6, 5, 9, 12],
                   ' x3 ': [2, 2, 3, 2, 5, 5, 7, 9]})

#view data frame
df

	y x1 x2 x3
0 8 5 11 2
1 12 7 8 2
2 15 7 10 3
3 14 9 6 2
4 19 12 6 5
5 23 9 5 5
6 25 9 9 7
7 29 4 12 9

#define predictor variable columns
df_x = df[[' x1 ', ' x2 ', ' x3 ']]

#standardize the values for each predictor variable
df[[' x1 ',' x2 ',' x3 ']] = (df_x- df_x.mean ())/df_x. std ()

#view new data frame
df

         y x1 x2 x3
0 8 -1.078639 1.025393 -0.908151
1 12 -0.294174 -0.146485 -0.908151
2 15 -0.294174 0.634767 -0.525772
3 14 0.490290 -0.927736 -0.908151
4 19 1.666987 -0.927736 0.238987
5 23 0.490290 -1.318362 0.238987
6 25 0.490290 0.244141 1.003746
7 29 -1.470871 1.416019 1.768505

Tieni presente che la colonna “y” rimane invariata, ma le colonne “x1”, “x2” e “x3” sono tutte standardizzate.

Possiamo verificare che la media e la deviazione standard di ciascuna colonna di variabili predittive sono rispettivamente uguali a 0 e 1:

 #view mean of each predictor variable column
df[[' x1 ', ' x2 ', ' x3 ']]. mean ()

x1 2.775558e-17
x2 -4.163336e-17
x3 5.551115e-17
dtype:float64

#view standard deviation of each predictor variable column
df[[' x1 ', ' x2 ', ' x3 ']]. std ()

x1 1.0
x2 1.0
x3 1.0
dtype:float64

Risorse addizionali

Come normalizzare le colonne in un Pandas DataFrame
Come rimuovere i valori anomali in Python
Standardizzazione o normalizzazione: qual è la differenza?

Informazioni sull'autore

Benjamin anderson

Ciao, sono Benjamin, un professore di statistica in pensione diventato insegnante dedicato di Statorials. Con una vasta esperienza e competenza nel campo della statistica, sono ansioso di condividere le mie conoscenze per potenziare gli studenti attraverso Statorials. Scopri di più

Esempio 1: standardizzare tutte le colonne DataFrame

Esempio 2: normalizzare colonne DataFrame specifiche

Risorse addizionali

Informazioni sull'autore

Benjamin anderson

Aggiungi un commento