So identifizieren sie ausreißer in sas (mit beispiel)


Ein Ausreißer ist eine Beobachtung, die ungewöhnlich weit von anderen Werten in einem Datensatz entfernt ist. Ausreißer können problematisch sein, da sie die Ergebnisse einer Analyse beeinflussen können.

Die gebräuchlichste Methode zur Identifizierung von Ausreißern in einem Datensatz ist die Verwendung des Interquartilbereichs.

Der Interquartilbereich (IQR) ist die Differenz zwischen dem 75. Perzentil (Q3) und dem 25. Perzentil (Q1) in einem Datensatz. Es misst die Verteilung der durchschnittlichen 50 % der Werte.

Im Allgemeinen definieren wir eine Beobachtung als Ausreißer, wenn sie das 1,5-fache des Interquartilbereichs oberhalb des dritten Quartils (Q3) oder das 1,5-fache des Interquartilbereichs unterhalb des ersten Quartils (Q1) beträgt.

Ausreißer = Beobachtungen > Q3 + 1,5*IQR oder < Q1 – 1,5*IQR

Das folgende Beispiel zeigt, wie Sie diese Formel verwenden, um Ausreißer in einem Datensatz in SAS zu identifizieren.

Beispiel: Ausreißer in SAS identifizieren

Nehmen wir an, wir haben den folgenden Datensatz in SAS:

 /*create dataset*/
data original_data;
    input team $points;
    datalines ;
At 18
B24
C26
D 34
E 38
F45
G 48
H 54
I 60
Day 73
K 79
L 85
M 94
No. 98
O 221
P 223
;
run ;

/*view dataset*/
proc print data = original_data;

Der einfachste Weg, Ausreißer in SAS zu identifizieren, besteht darin, ein Boxplot zu erstellen, das automatisch die zuvor genannte Formel verwendet, um Ausreißer im Datensatz als kleine Kreise zu identifizieren und anzuzeigen:

 /*create boxplot to visualize distribution of points*/
ods output sgplot=boxplot_data;
proc sgplot data =original_data;
    vbox points;
run ;

/*view summary of boxplot descriptive statistics*/
proc print data =boxplot_data; 

Aus dem Boxplot können wir erkennen, dass sich am oberen Rand des Diagramms zwei kleine Kreise befinden. Dies weist darauf hin, dass es zwei Ausreißer gibt.

In der Tabelle unterhalb des Boxplots sehen wir die genauen Werte der beiden Ausreißer: 221 und 223 .

Mit der vorherigen Formel können wir manuell überprüfen, ob diese beiden Werte Ausreißer sind:

Ausreißer = Beobachtungen > Q3 + 1,5*IQR oder < Q1 – 1,5*IQR

Der Interquartilbereich beträgt: Q3 – Q1 = 89,5 – 36 = 53,5.

Die Obergrenze für Ausreißer wäre: Q3 + 1,5*IQR = 89,5 + 1,5*53,5 = 169,75.

Da 221 und 223 beide größer als dieser Wert sind, werden sie als Ausreißer klassifiziert.

Wenn wir wollten, könnten wir dann den folgenden Code verwenden, um diese beiden Ausreißer aus dem Datensatz zu entfernen:

 /*create new dataset with outliers removed*/
data new_data;
    set original_data;
    if points >= 221 then delete;
run ;

/*view new dataset*/
proc print data =new_data; 

Beachten Sie, dass die beiden Ausreißer entfernt wurden.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere häufige Aufgaben in SAS ausführen:

So verwenden Sie die Verfahrenszusammenfassung in SAS
So verwenden Sie Proc Tabulate in SAS
So berechnen Sie die Korrelation in SAS
So erstellen Sie Häufigkeitstabellen in SAS
So ersetzen Sie fehlende Werte in SAS durch Null

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert