Como normalizar dados no sas


“Normalizar” um conjunto de valores de dados significa dimensionar os valores de forma que a média de todos os valores seja 0 e o desvio padrão seja 1.

Este tutorial explica como normalizar dados no SAS.

Exemplo: como normalizar dados no SAS

Suponha que temos o seguinte conjunto de dados:

Conclua as etapas a seguir para normalizar esse conjunto de valores de dados no SAS.

Etapa 1: crie o conjunto de dados

Primeiro, vamos usar o seguinte código para criar o conjunto de dados no SAS:

 /*create dataset*/
data original_data;
    input values;
    datalines ;
12
14
15
15
16
17
18
20
24
25
26
29
32
34
37
;
run ;

/*view mean and standard deviation of dataset*/
proc means data =original_data Mean StdDev ndec= 3 ; 
   var values;
run ; 

Pelo resultado, podemos ver que a média do conjunto de dados é 22,267 e o desvio padrão é 7,968 .

Etapa 2: normalizar o conjunto de dados

A seguir, usaremos proc stdize para normalizar o conjunto de dados:

 /*normalize the dataset*/
proc stdize data =original_data out =normalized_data;
   var values;
run ;

/*print normalized dataset*/
proc print data =normalized_data;
 
/*view mean and standard deviation of normalized dataset*/
proc means data =normalized_data Mean StdDev ndec= 2 ; 
   var values;
run ; 

A partir do resultado, podemos ver que a média do conjunto de dados normalizado é 0 e o desvio padrão é 1 .

Etapa 3: interpretar os dados normalizados

O SAS usou a seguinte fórmula para normalizar os valores dos dados:

Valor normalizado = (x – x ) / s

Ouro:

  • x = valor dos dados
  • x = média do conjunto de dados
  • s = desvio padrão do conjunto de dados

Cada valor normalizado nos informa o número de desvios padrão entre o valor dos dados originais e a média.

Por exemplo, considere o ponto de dados “12” em nosso conjunto de dados original. A média da amostra original foi 22,267 e o desvio padrão da amostra original foi 7,968.

O valor normalizado para “12” acabou sendo -1,288, calculado da seguinte forma:

Valor normalizado = (x – x ) / s = (12 – 22,267) / 7,968 = -1,288

Isso nos diz que o valor “12” é 1,288 desvios padrão inferior à média do conjunto de dados original.

Cada um dos valores normalizados no conjunto de dados pode nos ajudar a entender o quão próximo ou distante um determinado valor de dados está da média.

Um valor normalizado pequeno indica que um valor está próximo da média, enquanto um valor normalizado grande indica que um valor está longe da média.

Recursos adicionais

Os tutoriais a seguir explicam como executar outras tarefas comuns no SAS:

Como usar o resumo do procedimento no SAS
Como calcular a correlação no SAS
Como criar tabelas de frequência no SAS

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *