Hoe u uitschieters in sas kunt identificeren (met voorbeeld)
Een uitschieter is een waarneming die abnormaal ver verwijderd is van andere waarden in een dataset. Uitschieters kunnen problematisch zijn omdat ze de resultaten van een analyse kunnen beïnvloeden.
De meest gebruikelijke manier om uitbijters in een dataset te identificeren, is door het interkwartielbereik te gebruiken.
De interkwartielafstand (IQR) is het verschil tussen het 75e percentiel (Q3) en het 25e percentiel (Q1) in een dataset. Het meet de verdeling van de gemiddelde 50% van de waarden.
Over het algemeen definiëren we een waarneming als een uitschieter als deze 1,5 keer de interkwartielafstand boven het derde kwartiel (Q3) of 1,5 keer de interkwartielafstand onder het eerste kwartiel (Q1) ligt.
Uitschieters = Waarnemingen > Q3 + 1,5*IQR of < Q1 – 1,5*IQR
In het volgende voorbeeld ziet u hoe u deze formule kunt gebruiken om uitbijters in een gegevensset in SAS te identificeren.
Voorbeeld: Uitschieters identificeren in SAS
Laten we aannemen dat we de volgende gegevensset in SAS hebben:
/*create dataset*/
data original_data;
input team $points;
datalines ;
At 18
B24
C26
D 34
E 38
F45
G 48
H 54
I 60
Day 73
K 79
L 85
M 94
No. 98
O 221
P 223
;
run ;
/*view dataset*/
proc print data = original_data;
De eenvoudigste manier om uitschieters in SAS te identificeren is door een boxplot te maken, die automatisch de eerder genoemde formule gebruikt om uitschieters in de dataset te identificeren en weer te geven als kleine cirkels:
/*create boxplot to visualize distribution of points*/
ods output sgplot=boxplot_data;
proc sgplot data =original_data;
vbox points;
run ;
/*view summary of boxplot descriptive statistics*/
proc print data =boxplot_data;
Uit de boxplot kunnen we zien dat er twee kleine cirkels bovenaan de plot zijn. Dit geeft aan dat er twee uitschieters zijn.
In de tabel onder de boxplot zien we de exacte waarden van de twee uitschieters: 221 en 223 .
We kunnen handmatig controleren of deze twee waarden uitschieters zijn met behulp van de vorige formule:
Uitschieters = Waarnemingen > Q3 + 1,5*IQR of < Q1 – 1,5*IQR
De interkwartielafstand is: Q3 – Q1 = 89,5 – 36 = 53,5.
De bovengrens voor uitschieters zou zijn: Q3 + 1,5*IQR = 89,5 + 1,5*53,5 = 169,75.
Omdat 221 en 223 beide groter zijn dan deze waarde, worden ze geclassificeerd als uitbijters.
We zouden dan de volgende code kunnen gebruiken om deze twee uitschieters uit de dataset te verwijderen als we dat wilden:
/*create new dataset with outliers removed*/
data new_data;
set original_data;
if points >= 221 then delete;
run ;
/*view new dataset*/
proc print data =new_data;
Merk op dat de twee uitschieters zijn verwijderd.
Aanvullende bronnen
In de volgende zelfstudies wordt uitgelegd hoe u andere veelvoorkomende taken in SAS kunt uitvoeren:
Procedureoverzicht gebruiken in SAS
Proc-tabel gebruiken in SAS
Hoe de correlatie in SAS te berekenen
Hoe frequentietabellen in SAS te maken
Hoe ontbrekende waarden te vervangen door nul in SAS