Jak zidentyfikować wartości odstające w sas-ie (z przykładem)


Wartość odstająca to obserwacja, która jest nienormalnie odległa od innych wartości w zbiorze danych. Wartości odstające mogą być problematyczne, ponieważ mogą wpływać na wyniki analizy.

Najczęstszym sposobem identyfikacji wartości odstających w zbiorze danych jest użycie rozstępu międzykwartylowego.

Rozstęp międzykwartylowy (IQR) to różnica między 75. percentylem (Q3) a 25. percentylem (Q1) w zbiorze danych. Mierzy rozkład średnich 50% wartości.

Generalnie definiujemy obserwację jako wartość odstającą, jeśli jest 1,5-krotnością rozstępu międzykwartylowego powyżej trzeciego kwartyla (Q3) lub 1,5-krotności rozstępu międzykwartylowego poniżej pierwszego kwartyla (Q1).

Wartości odstające = obserwacje > Q3 + 1,5*IQR lub < Q1 – 1,5*IQR

Poniższy przykład pokazuje, jak użyć tej formuły do identyfikacji wartości odstających w zestawie danych w SAS-owym formacie.

Przykład: Identyfikacja wartości odstających w SAS-ie

Załóżmy, że mamy następujący zestaw danych w SAS-ie:

 /*create dataset*/
data original_data;
    input team $points;
    datalines ;
At 18
B24
C26
D 34
E 38
F45
G 48
H 54
I 60
Day 73
K 79
L 85
M 94
No. 98
O 221
P 223
;
run ;

/*view dataset*/
proc print data = original_data;

Najłatwiejszym sposobem zidentyfikowania wartości odstających w SAS-ie jest utworzenie wykresu pudełkowego, który automatycznie wykorzystuje wspomnianą wcześniej formułę do identyfikacji i wyświetlania wartości odstających w zbiorze danych w postaci małych okręgów:

 /*create boxplot to visualize distribution of points*/
ods output sgplot=boxplot_data;
proc sgplot data =original_data;
    vbox points;
run ;

/*view summary of boxplot descriptive statistics*/
proc print data =boxplot_data; 

Z wykresu pudełkowego widzimy, że w górnej części wykresu znajdują się dwa małe okręgi. Oznacza to, że istnieją dwie wartości odstające.

W tabeli poniżej wykresu pudełkowego możemy zobaczyć dokładne wartości dwóch wartości odstających: 221 i 223 .

Możemy ręcznie sprawdzić, czy te dwie wartości są wartościami odstającymi, korzystając z poprzedniego wzoru:

Wartości odstające = obserwacje > Q3 + 1,5*IQR lub < Q1 – 1,5*IQR

Rozstęp międzykwartylowy wynosi: Q3 – Q1 = 89,5 – 36 = 53,5.

Górna granica dla wartości odstających wynosiłaby: Q3 + 1,5*IQR = 89,5 + 1,5*53,5 = 169,75.

Ponieważ wartości 221 i 223 są większe od tej wartości, klasyfikuje się je jako wartości odstające.

Gdybyśmy chcieli, moglibyśmy następnie użyć następującego kodu, aby usunąć te dwie wartości odstające ze zbioru danych:

 /*create new dataset with outliers removed*/
data new_data;
    set original_data;
    if points >= 221 then delete;
run ;

/*view new dataset*/
proc print data =new_data; 

Należy zauważyć, że dwie wartości odstające zostały usunięte.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w SAS-ie:

Jak korzystać ze podsumowania procedur w SAS-ie
Jak używać Proc Tabulate w SAS-ie
Jak obliczyć korelację w SAS-ie
Jak tworzyć tabele częstości w SAS-ie
Jak zastąpić brakujące wartości zerem w SAS-ie

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *