Gegevens normaliseren in sas
Het ‘normaliseren’ van een reeks gegevenswaarden betekent dat de waarden zodanig worden geschaald dat het gemiddelde van alle waarden 0 is en de standaarddeviatie 1.
In deze zelfstudie wordt uitgelegd hoe u gegevens in SAS kunt normaliseren.
Voorbeeld: gegevens normaliseren in SAS
Stel dat we de volgende dataset hebben:
Voer de volgende stappen uit om deze set gegevenswaarden in SAS te normaliseren.
Stap 1: Maak de gegevensset
Laten we eerst de volgende code gebruiken om de gegevensset in SAS te maken:
/*create dataset*/ data original_data; input values; datalines ; 12 14 15 15 16 17 18 20 24 25 26 29 32 34 37 ; run ; /*view mean and standard deviation of dataset*/ proc means data =original_data Mean StdDev ndec= 3 ; var values; run ;
Uit het resultaat kunnen we zien dat het gemiddelde van de dataset 22,267 is en de standaardafwijking 7,968 .
Stap 2: Normaliseer de dataset
Vervolgens zullen we proc stdize gebruiken om de dataset te normaliseren:
/*normalize the dataset*/
proc stdize data =original_data out =normalized_data;
var values;
run ;
/*print normalized dataset*/
proc print data =normalized_data;
/*view mean and standard deviation of normalized dataset*/
proc means data =normalized_data Mean StdDev ndec= 2 ;
var values;
run ;
Uit het resultaat kunnen we zien dat het gemiddelde van de genormaliseerde dataset 0 is en de standaarddeviatie 1 is.
Stap 3: Interpreteer de genormaliseerde gegevens
SAS gebruikte de volgende formule om de gegevenswaarden te normaliseren:
Genormaliseerde waarde = (x – x ) / s
Goud:
- x = gegevenswaarde
- x = gemiddelde van de dataset
- s = standaardafwijking van de dataset
Elke genormaliseerde waarde vertelt ons het aantal standaardafwijkingen tussen de oorspronkelijke gegevenswaarde en het gemiddelde.
Beschouw bijvoorbeeld datapunt “12” in onze oorspronkelijke dataset. Het oorspronkelijke steekproefgemiddelde was 22,267 en de oorspronkelijke standaardafwijking van de steekproef was 7,968.
De genormaliseerde waarde voor „12“ bleek -1,288 te zijn, als volgt berekend:
Genormaliseerde waarde = (x – x ) / s = (12 – 22,267) / 7,968 = -1,288
Dit vertelt ons dat de waarde “12” 1,288 standaardafwijkingen lager is dan het gemiddelde van de oorspronkelijke dataset.
Elk van de genormaliseerde waarden in de dataset kan ons helpen begrijpen hoe dichtbij of ver een bepaalde gegevenswaarde van het gemiddelde verwijderd is.
Een kleine genormaliseerde waarde geeft aan dat een waarde dicht bij het gemiddelde ligt, terwijl een grote genormaliseerde waarde aangeeft dat een waarde ver van het gemiddelde ligt.
Aanvullende bronnen
In de volgende zelfstudies wordt uitgelegd hoe u andere veelvoorkomende taken in SAS kunt uitvoeren:
Procedureoverzicht gebruiken in SAS
Hoe de correlatie in SAS te berekenen
Hoe frequentietabellen in SAS te maken