Jak łatwo znaleźć wartości odstające w programie excel
Wartość odstająca to obserwacja , która jest nienormalnie odległa od innych wartości w zbiorze danych.
Wartości odstające mogą być problematyczne, ponieważ mogą wpływać na wyniki analizy.
Użyjemy następującego zestawu danych w programie Excel, aby zademonstrować dwie metody znajdowania wartości odstających:
Powiązane: Jak obliczyć średnią z wyłączeniem wartości odstających w programie Excel
Metoda 1: Użyj rozstępu międzykwartylowego
Rozstęp międzykwartylowy (IQR) to różnica między 75. percentylem (Q3) a 25. percentylem (Q1) w zbiorze danych. Mierzy rozkład średnich 50% wartości.
Możemy zdefiniować obserwację jako wartość odstającą, jeśli jest 1,5-krotnością rozstępu międzykwartylowego powyżej trzeciego kwartyla (Q3) lub 1,5-krotności rozstępu międzykwartylowego poniżej pierwszego kwartyla (Q1).
Poniższy obraz pokazuje, jak obliczyć rozstęp międzykwartylowy w programie Excel:
Następnie możemy użyć powyższego wzoru, aby przypisać „1” dowolnym wartościom odstającym w zbiorze danych:
Widzimy, że tylko jedna wartość – 164 – okazuje się wartością odstającą w tym zbiorze danych.
Metoda 2: Użyj wyników Z
Wynik z informuje, o ile odchyleń standardowych dana wartość znajduje się od średniej. Do obliczenia wskaźnika Z używamy następującego wzoru:
z = (X – μ) / σ
Złoto:
- X to pojedyncza surowa wartość danych
- μ to średnia populacji
- σ jest odchyleniem standardowym populacji
Możemy zdefiniować obserwację jako wartość odstającą, jeśli jej wynik Z jest mniejszy niż -3 lub większy niż 3.
Poniższy obraz pokazuje, jak obliczyć średnią i odchylenie standardowe zbioru danych w programie Excel:
Następnie możemy użyć średniej i odchylenia standardowego, aby znaleźć wynik Z dla każdej indywidualnej wartości w zbiorze danych:
Możemy następnie przypisać „1” dowolnej wartości, której wynik Z jest mniejszy niż -3 lub większy niż 3:
Korzystając z tej metody, widzimy, że w zbiorze danych nie ma wartości odstających.
Uwaga: czasami zamiast 3 używana jest wartość Z wynosząca 2,5. W takim przypadku indywidualna wartość 164 będzie uważana za wartość odstającą, ponieważ jej wartość Z jest większa niż 2,5.
Korzystając z metody z-score, kieruj się własnym osądem, aby określić, którą wartość z-score uważasz za wartość odstającą.
Jak postępować z wartościami odstającymi
Jeśli w Twoich danych występuje wartość odstająca, masz kilka możliwości:
1. Upewnij się, że wartość odstająca nie jest wynikiem błędu we wprowadzaniu danych.
Czasami osoba po prostu wprowadza niewłaściwą wartość danych podczas zapisywania danych. Jeśli występuje wartość odstająca, najpierw sprawdź, czy wartość została wprowadzona poprawnie i czy nie jest to błąd.
2. Usuń wartość odstającą.
Jeśli wartość rzeczywiście odbiega od normy, możesz ją usunąć, jeśli będzie miała znaczący wpływ na ogólną analizę. Pamiętaj tylko, aby wspomnieć w raporcie końcowym lub analizie, że usunąłeś wartość odstającą.
3. Przypisz nową wartość wartości odstającej .
Jeśli wartość odstająca jest wynikiem błędu we wprowadzaniu danych, możesz zdecydować się na przypisanie jej nowej wartości, takiej jak średnia lub mediana zbioru danych.