Jak zidentyfikować wartości odstające w sas-ie (z przykładem)
Wartość odstająca to obserwacja, która jest nienormalnie odległa od innych wartości w zbiorze danych. Wartości odstające mogą być problematyczne, ponieważ mogą wpływać na wyniki analizy.
Najczęstszym sposobem identyfikacji wartości odstających w zbiorze danych jest użycie rozstępu międzykwartylowego.
Rozstęp międzykwartylowy (IQR) to różnica między 75. percentylem (Q3) a 25. percentylem (Q1) w zbiorze danych. Mierzy rozkład średnich 50% wartości.
Generalnie definiujemy obserwację jako wartość odstającą, jeśli jest 1,5-krotnością rozstępu międzykwartylowego powyżej trzeciego kwartyla (Q3) lub 1,5-krotności rozstępu międzykwartylowego poniżej pierwszego kwartyla (Q1).
Wartości odstające = obserwacje > Q3 + 1,5*IQR lub < Q1 – 1,5*IQR
Poniższy przykład pokazuje, jak użyć tej formuły do identyfikacji wartości odstających w zestawie danych w SAS-owym formacie.
Przykład: Identyfikacja wartości odstających w SAS-ie
Załóżmy, że mamy następujący zestaw danych w SAS-ie:
/*create dataset*/
data original_data;
input team $points;
datalines ;
At 18
B24
C26
D 34
E 38
F45
G 48
H 54
I 60
Day 73
K 79
L 85
M 94
No. 98
O 221
P 223
;
run ;
/*view dataset*/
proc print data = original_data;
Najłatwiejszym sposobem zidentyfikowania wartości odstających w SAS-ie jest utworzenie wykresu pudełkowego, który automatycznie wykorzystuje wspomnianą wcześniej formułę do identyfikacji i wyświetlania wartości odstających w zbiorze danych w postaci małych okręgów:
/*create boxplot to visualize distribution of points*/
ods output sgplot=boxplot_data;
proc sgplot data =original_data;
vbox points;
run ;
/*view summary of boxplot descriptive statistics*/
proc print data =boxplot_data;
Z wykresu pudełkowego widzimy, że w górnej części wykresu znajdują się dwa małe okręgi. Oznacza to, że istnieją dwie wartości odstające.
W tabeli poniżej wykresu pudełkowego możemy zobaczyć dokładne wartości dwóch wartości odstających: 221 i 223 .
Możemy ręcznie sprawdzić, czy te dwie wartości są wartościami odstającymi, korzystając z poprzedniego wzoru:
Wartości odstające = obserwacje > Q3 + 1,5*IQR lub < Q1 – 1,5*IQR
Rozstęp międzykwartylowy wynosi: Q3 – Q1 = 89,5 – 36 = 53,5.
Górna granica dla wartości odstających wynosiłaby: Q3 + 1,5*IQR = 89,5 + 1,5*53,5 = 169,75.
Ponieważ wartości 221 i 223 są większe od tej wartości, klasyfikuje się je jako wartości odstające.
Gdybyśmy chcieli, moglibyśmy następnie użyć następującego kodu, aby usunąć te dwie wartości odstające ze zbioru danych:
/*create new dataset with outliers removed*/
data new_data;
set original_data;
if points >= 221 then delete;
run ;
/*view new dataset*/
proc print data =new_data;
Należy zauważyć, że dwie wartości odstające zostały usunięte.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w SAS-ie:
Jak korzystać ze podsumowania procedur w SAS-ie
Jak używać Proc Tabulate w SAS-ie
Jak obliczyć korelację w SAS-ie
Jak tworzyć tabele częstości w SAS-ie
Jak zastąpić brakujące wartości zerem w SAS-ie