Jak czytać wykres pudełkowy z wartościami odstającymi (z przykładem)


Wykres pudełkowy to rodzaj wykresu przedstawiający pięciocyfrowe podsumowanie zbioru danych, które obejmuje:

  • Wartość minimalna
  • Pierwszy kwartyl (25. percentyl)
  • Wartość średnia
  • Trzeci kwartyl (75. percentyl)
  • Maksymalna wartość

Aby sporządzić wykres pudełkowy, najpierw rysujemy pudełko od pierwszego do trzeciego kwartyla.

Następnie rysujemy pionową linię na środku.

Na koniec rysujemy „wąsy” kwartylów aż do wartości minimalnej i maksymalnej.

W większości programów statystycznych obserwację definiuje się jako wartość odstającą, jeśli spełnia jeden z dwóch poniższych wymagań:

  • Obserwacja jest 1,5-krotnością rozstępu międzykwartylowego poniżej pierwszego kwartyla (Q1)
  • Obserwacja jest 1,5-krotnością rozstępu międzykwartylowego powyżej trzeciego kwartyla (Q3).

Jeśli w zbiorze danych występuje wartość odstająca, jest ona zwykle oznaczona małą kropką poza zakresem wąsów na wykresie pudełkowym:

jak czytać wartości odstające na wykresach pudełkowych

Kiedy tak się dzieje, wartościom „minimalnym” i „maksymalnym” na wykresie pudełkowym po prostu przypisuje się wartości Q1 – odpowiednio 1,5*IQR i Q3 + 1,5*IQR.

Poniższy przykład pokazuje, jak interpretować wykresy pudełkowe z wartościami odstającymi i bez nich.

Przykład: interpretacja wykresu pudełkowego z wartościami odstającymi

Załóżmy, że tworzymy następujące dwa wykresy pudełkowe, aby zwizualizować rozkład punktów zdobytych przez koszykarzy z dwóch różnych drużyn:

Lewy wykres pudełkowy dla Drużyny A nie zawiera wartości odstających, ponieważ nie ma małych kropek znajdujących się poza minimalnym lub maksymalnym wąsem.

Jednakże właściwy wykres pudełkowy dla Zespołu B zawiera jedną wartość odstającą powyżej wartości „maksymalnej” i jedną wartość odstającą poniżej wartości „minimalnej”.

Oto aktualne pięciocyfrowe podsumowanie podziału zmiennej „Punkty” dla Drużyny B:

  • Wartość minimalna: 1,1
  • Pierwszy kwartyl: 10,5
  • Mediana: 12,7
  • Trzeci kwartyl: 15,6
  • Wartość maksymalna: 23,5

Oto jak obliczyć granice potencjalnych wartości odstających:

Skala międzykwartylowa : Trzeci kwartyl – Pierwszy kwartyl = 15,6 – 10,5 = 5,1

Dolna granica : Q1 – 1,5*IQR = 10,5 – 1,5*5,1 = 2,85

Górna granica : Q3 + 1,5*IQR = 15,6 + 1,5*5,1 = 23,25

Wąsy dla wartości minimalnej i maksymalnej na wykresie pudełkowym znajdują się przy 2,85 i 23,25 .

Zatem obserwacje o wartościach 1,1 i 23,5 kwalifikują się jako wartości odstające na wykresie pudełkowym, ponieważ wykraczają poza dolną i górną granicę.

Bonus : Oto dokładny kod, którego użyliśmy do stworzenia tych dwóch wykresów skrzynkowych w języku programowania R:

 library (ggplot2)

#make this example reproducible 
set. seeds (2)

#create data frame
df <- data. frame (Team = factor(rep(c("A", "B"), each = 200)), 
                 Points = c(rnorm(200, mean = 15, sd = 3), 
                           rnorm(200, mean = 12, sd = 4))) 

#create box plots
ggplot(df, aes(x = Team, y = Points)) +
  stat_boxplot(geom = " errorbar ", width = 0.5) +  
  geom_boxplot() 

#calculate summary statistics for each team
tapply(df$Points, df$Team, summary)

Dodatkowe zasoby

Poniższe samouczki zawierają dodatkowe informacje na temat wykresów pudełkowych:

Jak porównać wykresy pudełkowe
Jak rozpoznać asymetrię na wykresach pudełkowych
Jak znaleźć rozstęp międzykwartylowy wykresu pudełkowego

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *