Kompletny przewodnik: kiedy usunąć wartości odstające z danych


Wartość odstająca to obserwacja , która jest nienormalnie odległa od innych wartości w zbiorze danych.

Wartości odstające mogą być problematyczne, ponieważ mogą wpływać na wyniki analizy.

Mogą jednak również zapewnić wgląd w badane dane, ponieważ mogą ujawnić nietypowe przypadki lub osoby o rzadkich cechach.

W każdej analizie należy zdecydować, czy usunąć, czy zachować wartości odstające.

Na szczęście możesz skorzystać z poniższego schematu blokowego, który pomoże Ci w podjęciu decyzji:

schemat blokowy, aby zdecydować, czy usunąć wartości odstające z danych

Przyjrzyjmy się bliżej każdemu pytaniu na schemacie blokowym.

Czy wartość odstająca jest wynikiem błędu we wprowadzaniu danych?

Czasami wartości odstające w zbiorze danych są po prostu wynikiem błędu we wprowadzaniu danych.

Załóżmy na przykład, że biolog zbiera dane na temat wysokości określonego gatunku roślin i zapisuje następujące dane:

  • 6,83 cala
  • 7,51 cala
  • 5,21 cala
  • 5,84 cala
  • 7,83 cala
  • 755 cali
  • 6,53 cala
  • 6,31 cala
  • 5,91 cala

Oczywiście wpis dotyczący 755 cali jest wartością odstającą i prawdopodobnie jest wynikiem błędu we wprowadzaniu danych. Najprawdopodobniej wysokość powinna wynosić 7,55 cala, ale została po prostu wpisana niepoprawnie.

Gdyby biolog zachował tę obserwację i obliczyłstatystykę opisową , taką jak średnia wysokość roślin w próbce, obserwacja ta znacznie wypaczyłaby wyniki i dałaby niedokładny obraz prawdziwej średniej wysokości roślin.

W tym scenariuszu (i scenariuszach podobnych do tego) sensowne jest usunięcie tej wartości odstającej ze zbioru danych, ponieważ jest to błąd, a nie prawidłowy punkt danych do uwzględnienia w analizie.

Czy wartość odstająca znacząco wpływa na wyniki analizy?

Jeśli obserwacja jest prawdziwą wartością odstającą, a nie jest po prostu wynikiem błędu we wprowadzaniu danych, wówczas musimy sprawdzić, czy wartość odstająca wpływa na wyniki analizy.

Załóżmy na przykład, że biolog bada związek między nawozem a wysokością rośliny. Chce dopasować prosty model regresji liniowej , wykorzystując nawóz jako zmienną predykcyjną i wysokość rośliny jakozmienną odpowiedzi .

Gromadzi następujące dane dla 12 różnych fabryk:

Oczywiste jest, że ostatnia obserwacja jest błędna.

Jeśli jednak utworzymy wykres rozrzutu w celu wizualizacji tego zestawu danych, zobaczymy, że linia regresji nie zmieni się zbytnio, niezależnie od tego, czy uwzględnimy wartość odstającą:

W tym scenariuszu wartość odstająca w rzeczywistości nie narusza żadnego z założeń modelu regresji liniowej , więc możemy ją zachować w zbiorze danych.

Załóżmy jednak, że w danych mamy następującą wartość odstającą:

Oczywiście ta wartość odstająca znacząco wpływa na linię regresji, więc możemy dopasować jeden model regresji z wartością odstającą i jeden bez niej, a następnie zgłosić wyniki obu modeli regresji.

Czy wartość odstająca wpływa na założenia przyjęte w analizie?

Jeśli wartość odstająca nie jest wynikiem błędu we wprowadzaniu danych i nie wpływa znacząco na wyniki analizy, wówczas musimy zadać sobie pytanie, czy wartość odstająca wpływa na hipotezy postawione w analizie. analiza.

Jeśli nie ma to wpływu na założenia, możemy po prostu zachować to w danych.

Jeśli jednak ma to wpływ na założenia, mamy kilka opcji:

1. Usuń to. Możemy po prostu usunąć go z danych i odnotować podczas raportowania wyników.

2. Wykonaj transformację danych. Zamiast usuwać wartość odstającą, moglibyśmy spróbować przeprowadzić transformację danych, na przykład biorąc pierwiastek kwadratowy lub log wszystkich wartości w danych. Wykazano, że pozwala to na zmniejszenie wartości odstających i często sprawia, że dane mają rozkład bardziej normalny .

Niezależnie od tego, jak zdecydujesz się potraktować wartości odstające w swoich danych, powinieneś odnotować swoją decyzję w wyniku analizy wraz ze swoim uzasadnieniem.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak znaleźć i usunąć wartości odstające w różnych programach statystycznych:

Jak znaleźć wartości odstające w programie Excel
Jak znaleźć wartości odstające w Arkuszach Google
Jak znaleźć wartości odstające w R
Jak znaleźć wartości odstające w Pythonie
Jak znaleźć wartości odstające w SPSS

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *