Jak łatwo znaleźć wartości odstające w arkuszach google
Wartość odstająca to obserwacja, która jest nienormalnie odległa od innych wartości w zbiorze danych.
Często definiujemy obserwację jako wartość odstającą, jeśli jest 1,5-krotnością rozstępu międzykwartylowego powyżej trzeciego kwartyla lub 1,5-krotności rozstępu międzykwartylowego poniżej pierwszego kwartyla.
Uwaga: Rozstęp międzykwartylowy to różnica między trzecim kwartylem (75. percentyl) a pierwszym kwartylem (25. percentyl) zbioru danych. Mierzy rozkład średnich 50% wartości.
Poniższy przykład pokazuje krok po kroku, jak używać tej formuły do znajdowania wartości odstających w zbiorze danych w Arkuszach Google.
Krok 1: Wprowadź dane
Najpierw wprowadźmy do Arkuszy Google wartości z poniższego zbioru danych:
Krok 2: Oblicz rozstęp międzykwartylowy
Następnie obliczmy pierwszy kwartyl, trzeci kwartyl i rozstęp międzykwartylowy zbioru danych:
Krok 3: Zidentyfikuj wartości odstające
Następnie możemy użyć poniższej formuły, aby przypisać „1” dowolnym wartościom odstającym w zbiorze danych:
= IF ( A2 < $B$18 - $B$20 * 1.5 , 1 , IF ( A2 > $B$19 + $B$20 * 1.5 , 1 , 0 ) )
Wzór ten sprawdza, czy obserwacja jest 1,5-krotnością rozstępu międzykwartylowego powyżej trzeciego kwartyla lub 1,5-krotnością rozstępu międzykwartylowego poniżej pierwszego kwartyla.
Jeśli którekolwiek z nich jest prawdziwe, obserwacji przypisuje się „1”, aby oznaczyć ją jako wartość odstającą.
Poniższy zrzut ekranu pokazuje, jak zastosować tę formułę w praktyce:
Widzimy, że tylko jedna wartość w naszym zbiorze danych okazuje się wartością odstającą: 164 .
Jak postępować z wartościami odstającymi
Jeśli w Twoich danych występuje wartość odstająca, masz kilka możliwości:
1. Upewnij się, że wartość odstająca nie jest wynikiem błędu we wprowadzaniu danych.
Czasami proste dane są zapisywane nieprawidłowo. Jeśli występuje wartość odstająca, najpierw sprawdź, czy wartość została wprowadzona poprawnie i czy nie jest to błąd.
2. Przypisz nową wartość wartości odstającej .
Jeśli wartość odstająca jest wynikiem błędu we wprowadzaniu danych, możesz zdecydować się na przypisanie jej nowej wartości, takiej jak średnia lub mediana zbioru danych.
3. Usuń wartość odstającą.
Jeśli wartość rzeczywiście odbiega od normy, możesz ją usunąć, jeśli będzie miała znaczący wpływ na ogólną analizę. Pamiętaj tylko, aby wspomnieć w raporcie końcowym, że usunąłeś wartość odstającą.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak usuwać wartości odstające w innych programach statystycznych:
Jak usunąć wartości odstające w R
Jak usunąć wartości odstające w Pythonie
Jak usunąć wartości odstające w SPSS