Wykres punktowy i histogram: jaka jest różnica?


Dwa powszechnie używane wykresy do wizualizacji rozkładu wartości w zbiorze danych to wykresy punktowe i histogramy .

Wykres kropkowy przedstawia poszczególne wartości danych wzdłuż osi x i wykorzystuje punkty do przedstawienia częstotliwości każdej indywidualnej wartości.

Histogram wyświetla zakresy danych wzdłuż osi x i wykorzystuje prostokątne słupki do przedstawienia częstotliwości wartości należących do każdego zakresu.

Poniższy przykład pokazuje, jak utworzyć wykres punktowy i histogram dla tego samego zestawu danych.

Przykład: tworzenie wykresu punktowego i histogramu dla tego samego zestawu danych

Załóżmy, że mamy następujący zbiór danych zawierający 18 wartości:

Dane: 1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10

Oto jak wyglądałby wykres punktowy dla tego zbioru danych:

Oś x pokazuje poszczególne wartości danych, a oś y pokazuje częstotliwość każdej wartości.

Na przykład widzimy, że wartość „2” pojawia się w zbiorze danych trzy razy, ponieważ znajdują się nad nią trzy punkty. Podobnie widzimy, że wartość „3” pojawia się tylko raz, ponieważ znajduje się nad nią tylko jedna kropka.

A tak wyglądałby histogram dla tego zbioru danych:

Porządek.

Na przykład widzimy, że siedem wartości mieści się w przedziale od 0 do 2, dwie wartości mieszczą się w przedziale od 2 do 4 i tak dalej.

Bonus : dla tych, którzy są ciekawi, użyliśmy następującego kodu R, aby utworzyć wykres punktowy i histogram pokazany powyżej:

 #define dataset
data <- c(1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10)

#create dot plot
stripchart(data, method = "stack", offset = .5, at = 0, pch = 19, cex=5,
           col = "steelblue", main = "Dot Plot",
           xlab = "Data Values", ylab="Frequency")

#create histogram
hist(data, col='steelblue', main='Histogram', xlab='Data Values')

Wykres punktowy lub histogram: którego należy użyć?

Jak wspomniano wcześniej, wykres punktowy i histogram można wykorzystać do wizualizacji rozkładu wartości w zbiorze danych.

Z reguły używamy wykresów punktowych, gdy nasz zbiór danych jest mały, ponieważ pozwala nam to dokładnie zobaczyć, ile razy pojawia się każda pojedyncza wartość.

I odwrotnie, zazwyczaj używamy histogramów, gdy nasz zbiór danych jest duży, ponieważ tworzenie punktu reprezentującego każdą pojedynczą wartość w dużym zbiorze danych jest żmudne.

Należy pamiętać, że jedyną wadą używania histogramu jest to, że nie możemy dokładnie określić, ile razy pojawia się każda pojedyncza wartość.

Na przykład na poprzednim histogramie widzieliśmy, że siedem wartości mieściło się w przedziale od 0 do 2, ale nie wiemy dokładnie, ile wartości wynosiło 1, a ile wartości było 2.

Jeśli chcemy po prostu zrozumieć ogólny „kształt” rozkładu, to generalnie nie ma znaczenia, jeśli nie znamy poszczególnych wartości zbioru danych.

Należy również pamiętać, że nie możemy obliczyć dokładnej mediany ani średniej, po prostu patrząc na histogram, ponieważ nie znamy poszczególnych wartości.

Dodatkowe zasoby

Poniższe samouczki zawierają dodatkowe informacje na temat histogramów:

Jak oszacować histogramy średnie i mediany
Jak opisać kształt histogramów
Jak tworzyć histogramy w R
Jak utworzyć histogram w Pythonie

Poniższe samouczki zawierają dodatkowe informacje na temat wykresów punktowych:

Jak znaleźć środek i rozkład wykresu kropkowego
Jak utworzyć wykres punktowy w Arkuszach Google
Jak utworzyć wykres punktowy w programie Excel
Jak utworzyć wykres punktowy w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *