Jak łatwo znaleźć wartości odstające w programie excel


Wartość odstająca to obserwacja , która jest nienormalnie odległa od innych wartości w zbiorze danych.

Wartości odstające mogą być problematyczne, ponieważ mogą wpływać na wyniki analizy.

Użyjemy następującego zestawu danych w programie Excel, aby zademonstrować dwie metody znajdowania wartości odstających:

Powiązane: Jak obliczyć średnią z wyłączeniem wartości odstających w programie Excel

Metoda 1: Użyj rozstępu międzykwartylowego

Rozstęp międzykwartylowy (IQR) to różnica między 75. percentylem (Q3) a 25. percentylem (Q1) w zbiorze danych. Mierzy rozkład średnich 50% wartości.

Możemy zdefiniować obserwację jako wartość odstającą, jeśli jest 1,5-krotnością rozstępu międzykwartylowego powyżej trzeciego kwartyla (Q3) lub 1,5-krotności rozstępu międzykwartylowego poniżej pierwszego kwartyla (Q1).

Poniższy obraz pokazuje, jak obliczyć rozstęp międzykwartylowy w programie Excel:

Następnie możemy użyć powyższego wzoru, aby przypisać „1” dowolnym wartościom odstającym w zbiorze danych:

Znajdź wartości odstające w programie Excel

Widzimy, że tylko jedna wartość – 164 – okazuje się wartością odstającą w tym zbiorze danych.

Metoda 2: Użyj wyników Z

Wynik z informuje, o ile odchyleń standardowych dana wartość znajduje się od średniej. Do obliczenia wskaźnika Z używamy następującego wzoru:

z = (X – μ) / σ

Złoto:

  • X to pojedyncza surowa wartość danych
  • μ to średnia populacji
  • σ jest odchyleniem standardowym populacji

Możemy zdefiniować obserwację jako wartość odstającą, jeśli jej wynik Z jest mniejszy niż -3 lub większy niż 3.

Poniższy obraz pokazuje, jak obliczyć średnią i odchylenie standardowe zbioru danych w programie Excel:

Następnie możemy użyć średniej i odchylenia standardowego, aby znaleźć wynik Z dla każdej indywidualnej wartości w zbiorze danych:

Możemy następnie przypisać „1” dowolnej wartości, której wynik Z jest mniejszy niż -3 lub większy niż 3:

Znajdowanie wartości odstających w programie Excel za pomocą wyników Z

Korzystając z tej metody, widzimy, że w zbiorze danych nie ma wartości odstających.

Uwaga: czasami zamiast 3 używana jest wartość Z wynosząca 2,5. W takim przypadku indywidualna wartość 164 będzie uważana za wartość odstającą, ponieważ jej wartość Z jest większa niż 2,5.

Korzystając z metody z-score, kieruj się własnym osądem, aby określić, którą wartość z-score uważasz za wartość odstającą.

Jak postępować z wartościami odstającymi

Jeśli w Twoich danych występuje wartość odstająca, masz kilka możliwości:

1. Upewnij się, że wartość odstająca nie jest wynikiem błędu we wprowadzaniu danych.

Czasami osoba po prostu wprowadza niewłaściwą wartość danych podczas zapisywania danych. Jeśli występuje wartość odstająca, najpierw sprawdź, czy wartość została wprowadzona poprawnie i czy nie jest to błąd.

2. Usuń wartość odstającą.

Jeśli wartość rzeczywiście odbiega od normy, możesz ją usunąć, jeśli będzie miała znaczący wpływ na ogólną analizę. Pamiętaj tylko, aby wspomnieć w raporcie końcowym lub analizie, że usunąłeś wartość odstającą.

3. Przypisz nową wartość wartości odstającej .

Jeśli wartość odstająca jest wynikiem błędu we wprowadzaniu danych, możesz zdecydować się na przypisanie jej nowej wartości, takiej jak średnia lub mediana zbioru danych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *