Wartości nietypowe (wartości odstające)
W tym artykule wyjaśniono, czym są wartości odstające i jak są obliczane. Dodatkowo możesz obliczyć wartości odstające dla dowolnej próbki danych za pomocą kalkulatora online.
Co to są wartości odstające?
W statystykach wartości odstające , zwane także wartościami odstającymi lub wartościami odstającymi , to wartości, które znacznie różnią się od reszty zbioru danych. Innymi słowy, wartość odstająca to nienormalna wartość, która znacznie różni się od pozostałych wartości w próbce.
Identyfikacja wartości odstających w próbie jest istotna, ponieważ mogą one znacząco wpłynąć na obliczenia miar statystycznych.
Na przykład, jeśli mamy serię danych [1, 3, 5, 2, 79, 4, 8, 6], liczba 79 jest wyraźnie wartością odstającą. Ponieważ jego wartość jest znacznie wyższa niż pozostałych danych. W tym przypadku średnia uwzględniająca wartość odstającą wynosi 13,5, podczas gdy średnia bez wartości odstającej wyniosłaby 4,14. Jak widać, już pojedyncza wartość odstająca znacząco wpływa na wynik pomiaru statystycznego.
Zazwyczaj wartości odstające można łatwo rozróżnić na wykresach rozrzutu, ponieważ są one odizolowane od reszty danych. Spójrz na poniższy wykres rozrzutu, wartość odstająca jest bardzo oddzielona od pozostałych wartości:
👉 Możesz skorzystać z poniższego kalkulatora, aby znaleźć wartości odstające dla dowolnego zbioru danych.
Jak obliczyć wartości odstające
Aby obliczyć wartości odstające na podstawie próbki danych, należy wykonać następujące kroki:
- Oblicz kwartyle zbioru danych.
- Oblicz rozstęp międzykwartylowy danych.
- Za wartości nietypowe (odstające) zostaną uznane wartości spełniające jeden z poniższych warunków:
- Wartość jest mniejsza niż pierwszy kwartyl minus 1,5-krotność rozstępu międzykwartylowego.
➤ Zobacz: jak obliczyć kwartyle
➤ Zobacz: jak obliczyć rozstęp międzykwartylowy
Na poniższym wykresie pudełkowym możesz zobaczyć dwie wartości odstające według tego kryterium, przedstawione graficznie:
Uwaga: Należy pamiętać, że istnieje kilka kryteriów określających granice, powyżej których dane są uznawane za wartości odstające. W tym artykule jako odniesienie przyjęto kryterium testu Tukeya, ponieważ jest ono najczęściej stosowane.
Przykład wartości odstających
Biorąc pod uwagę definicję wartości odstającej, w tej sekcji zobaczymy praktyczny przykład identyfikacji wartości odstających w serii danych.
- Oblicz wartości odstające lub wartości odstające na podstawie poniższego zestawu danych statystycznych.
Najpierw obliczamy trzy kwartyle zbioru danych:
Po znalezieniu trzech kwartylów znajdujemy rozstęp międzykwartylowy, odejmując kwartyl 3 minus kwartyl 1:
A teraz obliczamy granice wyznaczone przez wartości odstające. Aby to zrobić, używamy wzorów wyjaśnionych w powyższej sekcji:
Jeśli więc którakolwiek z wartości jest mniejsza niż 3,16, jest to wartość odstająca. Podobnie, jeśli wartość jest większa niż 5,56, jest również wartością odstającą.
Podsumowując, w tym przypadku mamy dwie skrajne wartości, ponieważ 3,02 jest mniejsze niż 3,16, a 5,71 jest większe niż 5,56.
Kalkulator wartości odstających
Wprowadź zestaw danych statystycznych do poniższego kalkulatora, aby obliczyć wartości odstające, jeśli takie istnieją. Dane należy oddzielić spacją i wprowadzić z użyciem kropki jako separatora dziesiętnego.
Przyczyny wartości odstających
Istnieje kilka możliwych przyczyn wartości odstających, z których najczęstsze to:
- Urządzenie użyte do wykonania pomiarów zepsuło się lub uległo wypadkowi.
- Mierzona część miała wadę z powodu nietypowej przyczyny.
- Wystąpił błąd w transmisji lub transkrypcji danych.
- Wystąpił błąd ludzki. Niezależnie od podjętych środków ostrożności błędy ludzkie nie są całkowicie nieuniknione i dlatego nadal mogą występować nieprawidłowe wartości.
Są to najczęstsze przyczyny, ale oczywiście przyczyną może być wszystko. Podobnie należy wziąć pod uwagę, że gdy przeprowadza się badanie statystyczne obejmujące wiele obserwacji, pojawienie się pewnych wartości odstających jest zjawiskiem normalnym.
Co zrobić z wartościami odstającymi
Częstym pytaniem, gdy napotykamy wartość odstającą, jest to, co powinniśmy z nią zrobić. Czy z próby należy usunąć wartości odstające?
Uważa się, że wartości odstające należy zawsze eliminować, gdyż są to dane niepodobne do reszty zbioru. Jednak mimo że wartości odstające znacząco wpływają na wyniki niektórych miar statystycznych, nie oznacza to, że zawsze należy je eliminować.
Ogólnie rzecz biorąc, wartości odstające należy usuwać tylko wtedy, gdy wiemy, że przyczyna anomalii jest naprawdę uzasadniona i dlatego te wartości odstające są obserwacjami, które nie odpowiadają badanemu.
Jest to szczególnie ważne w przypadku małych próbek, ponieważ wartości ekstremalne mają wówczas większy wpływ na metryki statystyczne.
Na przykład, jeśli w celu kontroli jakości mierzy się długość części produktu, logicznie rzecz biorąc, jeśli nagle pojawi się inny rodzaj produktu i zmierzona zostanie ta sama część, zmierzona wartość będzie bardzo różnić się od poprzednich i prawdopodobnie będzie być odstającym. W takim przypadku można wykluczyć wartość odstającą, ponieważ znana jest jej przyczyna i wiadomo, że zmierzone dane nie stanowią części populacji przeznaczonej do analizy.