Kompletny przewodnik: kiedy usunąć wartości odstające z danych
Wartość odstająca to obserwacja , która jest nienormalnie odległa od innych wartości w zbiorze danych.
Wartości odstające mogą być problematyczne, ponieważ mogą wpływać na wyniki analizy.
Mogą jednak również zapewnić wgląd w badane dane, ponieważ mogą ujawnić nietypowe przypadki lub osoby o rzadkich cechach.
W każdej analizie należy zdecydować, czy usunąć, czy zachować wartości odstające.
Na szczęście możesz skorzystać z poniższego schematu blokowego, który pomoże Ci w podjęciu decyzji:
Przyjrzyjmy się bliżej każdemu pytaniu na schemacie blokowym.
Czy wartość odstająca jest wynikiem błędu we wprowadzaniu danych?
Czasami wartości odstające w zbiorze danych są po prostu wynikiem błędu we wprowadzaniu danych.
Załóżmy na przykład, że biolog zbiera dane na temat wysokości określonego gatunku roślin i zapisuje następujące dane:
- 6,83 cala
- 7,51 cala
- 5,21 cala
- 5,84 cala
- 7,83 cala
- 755 cali
- 6,53 cala
- 6,31 cala
- 5,91 cala
Oczywiście wpis dotyczący 755 cali jest wartością odstającą i prawdopodobnie jest wynikiem błędu we wprowadzaniu danych. Najprawdopodobniej wysokość powinna wynosić 7,55 cala, ale została po prostu wpisana niepoprawnie.
Gdyby biolog zachował tę obserwację i obliczyłstatystykę opisową , taką jak średnia wysokość roślin w próbce, obserwacja ta znacznie wypaczyłaby wyniki i dałaby niedokładny obraz prawdziwej średniej wysokości roślin.
W tym scenariuszu (i scenariuszach podobnych do tego) sensowne jest usunięcie tej wartości odstającej ze zbioru danych, ponieważ jest to błąd, a nie prawidłowy punkt danych do uwzględnienia w analizie.
Czy wartość odstająca znacząco wpływa na wyniki analizy?
Jeśli obserwacja jest prawdziwą wartością odstającą, a nie jest po prostu wynikiem błędu we wprowadzaniu danych, wówczas musimy sprawdzić, czy wartość odstająca wpływa na wyniki analizy.
Załóżmy na przykład, że biolog bada związek między nawozem a wysokością rośliny. Chce dopasować prosty model regresji liniowej , wykorzystując nawóz jako zmienną predykcyjną i wysokość rośliny jakozmienną odpowiedzi .
Gromadzi następujące dane dla 12 różnych fabryk:
Oczywiste jest, że ostatnia obserwacja jest błędna.
Jeśli jednak utworzymy wykres rozrzutu w celu wizualizacji tego zestawu danych, zobaczymy, że linia regresji nie zmieni się zbytnio, niezależnie od tego, czy uwzględnimy wartość odstającą:
W tym scenariuszu wartość odstająca w rzeczywistości nie narusza żadnego z założeń modelu regresji liniowej , więc możemy ją zachować w zbiorze danych.
Załóżmy jednak, że w danych mamy następującą wartość odstającą:
Oczywiście ta wartość odstająca znacząco wpływa na linię regresji, więc możemy dopasować jeden model regresji z wartością odstającą i jeden bez niej, a następnie zgłosić wyniki obu modeli regresji.
Czy wartość odstająca wpływa na założenia przyjęte w analizie?
Jeśli wartość odstająca nie jest wynikiem błędu we wprowadzaniu danych i nie wpływa znacząco na wyniki analizy, wówczas musimy zadać sobie pytanie, czy wartość odstająca wpływa na hipotezy postawione w analizie. analiza.
Jeśli nie ma to wpływu na założenia, możemy po prostu zachować to w danych.
Jeśli jednak ma to wpływ na założenia, mamy kilka opcji:
1. Usuń to. Możemy po prostu usunąć go z danych i odnotować podczas raportowania wyników.
2. Wykonaj transformację danych. Zamiast usuwać wartość odstającą, moglibyśmy spróbować przeprowadzić transformację danych, na przykład biorąc pierwiastek kwadratowy lub log wszystkich wartości w danych. Wykazano, że pozwala to na zmniejszenie wartości odstających i często sprawia, że dane mają rozkład bardziej normalny .
Niezależnie od tego, jak zdecydujesz się potraktować wartości odstające w swoich danych, powinieneś odnotować swoją decyzję w wyniku analizy wraz ze swoim uzasadnieniem.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak znaleźć i usunąć wartości odstające w różnych programach statystycznych:
Jak znaleźć wartości odstające w programie Excel
Jak znaleźć wartości odstające w Arkuszach Google
Jak znaleźć wartości odstające w R
Jak znaleźć wartości odstające w Pythonie
Jak znaleźć wartości odstające w SPSS