Padronização ou normalização: qual a diferença?


Padronização e normalização são duas maneiras de redimensionar dados.

A normalização dimensiona um conjunto de dados para ter uma média de 0 e um desvio padrão de 1. Para fazer isso, ela usa a seguinte fórmula:

x novo = (x ix ) / s

Ouro:

  • x i : o i- ésimo valor do conjunto de dados
  • x : A amostra significa
  • s : o desvio padrão da amostra

A normalização redimensiona um conjunto de dados para que cada valor fique entre 0 e 1. Isso é feito usando a seguinte fórmula:

x novo = (x i – x min ) / (x máx – x min )

Ouro:

  • x i : o i- ésimo valor do conjunto de dados
  • x min : o valor mínimo no conjunto de dados
  • x max : o valor máximo no conjunto de dados

Os exemplos a seguir mostram como padronizar e normalizar um conjunto de dados na prática.

Exemplo: Como padronizar dados

Suponha que temos o seguinte conjunto de dados:

O valor médio no conjunto de dados é 43,15 e o desvio padrão é 22,13.

Para normalizar o primeiro valor de 13 , aplicaríamos a fórmula compartilhada anteriormente:

  • x novo = ( xix ) / s = (13 – 43,15) / 22,13 = -1,36

Para normalizar o segundo valor de 16 , usaríamos a mesma fórmula:

  • x novo = ( xix ) / s = (16 – 43,15) / 22,13 = -1,23

Para normalizar o terceiro valor de 19 , usaríamos a mesma fórmula:

  • x novo = ( xix ) / s = (19 – 43,15) / 22,13 = -1,09

Podemos usar exatamente esta mesma fórmula para padronizar cada valor no conjunto de dados original:

Exemplo: como normalizar dados

Novamente, suponha que temos o seguinte conjunto de dados:

O valor mínimo no conjunto de dados é 13 e o valor máximo é 71.

Para normalizar o primeiro valor de 13 , aplicaríamos a fórmula compartilhada anteriormente:

  • x novo = ( xi – x min ) / (x máx – x min ) = (13 – 13) / (71 – 13) = 0

Para normalizar o segundo valor de 16 , usaríamos a mesma fórmula:

  • x novo = ( xi – x min ) / (x máx – x min ) = (16 – 13) / (71 – 13) = 0,0517

Para normalizar o terceiro valor de 19 , usaríamos a mesma fórmula:

  • x novo = ( xi – x min ) / (x máx – x min ) = (19 – 13) / (71 – 13) = 0,1034

Podemos usar exatamente esta mesma fórmula para normalizar cada valor no conjunto de dados original entre 0 e 1:

Normalizar dados entre 0 e 1

Padronização ou normalização: quando utilizá-las?

Normalmente, normalizamos os dados quando estamos fazendo algum tipo de análise em que temos múltiplas variáveis medidas em escalas diferentes e queremos que cada uma das variáveis tenha o mesmo intervalo.

Isto evita que uma variável tenha influência indevida, especialmente se for medida em unidades diferentes (ou seja, se uma variável for medida em polegadas e outra em jardas).

Por outro lado, normalmente normalizamos os dados quando queremos saber quantos desvios padrão cada valor em um conjunto de dados está em relação à média.

Por exemplo, podemos ter uma lista de notas de exames para 500 alunos de uma determinada escola e gostaríamos de saber quantos desvios padrão cada nota de exame está em relação à nota média.

Nesse caso, poderíamos normalizar os dados brutos para conhecer essas informações. Então, uma pontuação padronizada de 1,26 nos diria que a pontuação do exame desse aluno em particular está 1,26 desvios-padrão acima da pontuação média do exame.

Quer você decida normalizar ou padronizar seus dados, tenha em mente os seguintes pontos:

  • Um conjunto de dados normalizado sempre terá valores entre 0 e 1.
  • Um conjunto de dados padronizado terá média 0 e desvio padrão 1, mas não há limite superior ou inferior específico para os valores máximo e mínimo.

Dependendo do seu cenário específico, pode fazer mais sentido normalizar ou padronizar os dados.

Recursos adicionais

Os tutoriais a seguir explicam como padronizar e normalizar dados em diferentes softwares estatísticos:

Como normalizar dados em R
Como normalizar dados no Excel
Como normalizar dados em Python
Como padronizar dados em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *