Como padronizar dados em python: com exemplos
Padronizar um conjunto de dados significa dimensionar todos os valores no conjunto de dados de forma que o valor médio seja 0 e o desvio padrão seja 1.
Usamos a seguinte fórmula para normalizar valores em um conjunto de dados:
x novo = (x i – x ) / s
Ouro:
- x i : o i- ésimo valor do conjunto de dados
- x : A amostra significa
- s : o desvio padrão da amostra
Podemos usar a seguinte sintaxe para normalizar rapidamente todas as colunas em um DataFrame do pandas em Python:
(df- df.mean ())/df. std ()
Os exemplos a seguir mostram como usar essa sintaxe na prática.
Exemplo 1: padronizar todas as colunas do DataFrame
O código a seguir mostra como padronizar todas as colunas em um DataFrame do pandas:
import pandas as pd #create data frame df = pd. DataFrame ({' y ': [8, 12, 15, 14, 19, 23, 25, 29], ' x1 ': [5, 7, 7, 9, 12, 9, 9, 4], ' x2 ': [11, 8, 10, 6, 6, 5, 9, 12], ' x3 ': [2, 2, 3, 2, 5, 5, 7, 9]}) #view data frame df y x1 x2 x3 0 8 5 11 2 1 12 7 8 2 2 15 7 10 3 3 14 9 6 2 4 19 12 6 5 5 23 9 5 5 6 25 9 9 7 7 29 4 12 9 #standardize the values in each column df_new = (df- df.mean ())/df. std () #view new data frame df_new y x1 x2 x3 0 -1.418032 -1.078639 1.025393 -0.908151 1 -0.857822 -0.294174 -0.146485 -0.908151 2 -0.437664 -0.294174 0.634767 -0.525772 3 -0.577717 0.490290 -0.927736 -0.908151 4 0.122546 1.666987 -0.927736 0.238987 5 0.682756 0.490290 -1.318362 0.238987 6 0.962861 0.490290 0.244141 1.003746 7 1.523071 -1.470871 1.416019 1.768505
Podemos verificar que a média e o desvio padrão de cada coluna são respectivamente iguais a 0 e 1:
#view mean of each column df_new. mean () y 0.000000e+00 x1 2.775558e-17 x2 -4.163336e-17 x3 5.551115e-17 dtype:float64 #view standard deviation of each column df_new. std () y 1.0 x1 1.0 x2 1.0 x3 1.0 dtype:float64
Exemplo 2: Normalizar colunas específicas do DataFrame
Às vezes você pode querer normalizar apenas colunas específicas em um DataFrame.
Por exemplo, para muitos algoritmos de aprendizado de máquina, talvez você queira padronizar apenas as variáveis preditoras antes de ajustar um determinado modelo aos dados.
O código a seguir mostra como padronizar colunas específicas em um DataFrame do pandas:
import pandas as pd #create data frame df = pd. DataFrame ({' y ': [8, 12, 15, 14, 19, 23, 25, 29], ' x1 ': [5, 7, 7, 9, 12, 9, 9, 4], ' x2 ': [11, 8, 10, 6, 6, 5, 9, 12], ' x3 ': [2, 2, 3, 2, 5, 5, 7, 9]}) #view data frame df y x1 x2 x3 0 8 5 11 2 1 12 7 8 2 2 15 7 10 3 3 14 9 6 2 4 19 12 6 5 5 23 9 5 5 6 25 9 9 7 7 29 4 12 9 #define predictor variable columns df_x = df[[' x1 ', ' x2 ', ' x3 ']] #standardize the values for each predictor variable df[[' x1 ',' x2 ',' x3 ']] = (df_x- df_x.mean ())/df_x. std () #view new data frame df y x1 x2 x3 0 8 -1.078639 1.025393 -0.908151 1 12 -0.294174 -0.146485 -0.908151 2 15 -0.294174 0.634767 -0.525772 3 14 0.490290 -0.927736 -0.908151 4 19 1.666987 -0.927736 0.238987 5 23 0.490290 -1.318362 0.238987 6 25 0.490290 0.244141 1.003746 7 29 -1.470871 1.416019 1.768505
Observe que a coluna “y” permanece inalterada, mas as colunas “x1”, “x2” e “x3” são todas padronizadas.
Podemos verificar que a média e o desvio padrão de cada coluna de variáveis preditoras são iguais a 0 e 1, respectivamente:
#view mean of each predictor variable column df[[' x1 ', ' x2 ', ' x3 ']]. mean () x1 2.775558e-17 x2 -4.163336e-17 x3 5.551115e-17 dtype:float64 #view standard deviation of each predictor variable column df[[' x1 ', ' x2 ', ' x3 ']]. std () x1 1.0 x2 1.0 x3 1.0 dtype:float64
Recursos adicionais
Como normalizar colunas em um DataFrame do Pandas
Como remover valores discrepantes em Python
Padronização ou normalização: qual a diferença?