Odp.: jak zmienić liczbę przedziałów na histogramie


Kiedy tworzysz histogram w języku R, do określenia optymalnej liczby grup używana jest formuła znana jako reguła Sturgesa .

Można jednak użyć poniższej składni, aby zastąpić tę formułę i określić dokładną liczbę grup, które mają zostać użyte na histogramie:

 hist(data, breaks = seq(min(data), max(data), length. out = 7 ))

Należy pamiętać, że liczba grup użytych na histogramie będzie o jeden mniejsza niż liczba określona w argumencie długość.out .

Poniższe przykłady pokazują, jak używać tej składni w praktyce.

Przykład 1: Utwórz podstawowy histogram

Poniższy kod pokazuje, jak utworzyć podstawowy histogram w R bez określania liczby pojemników:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram of data
hist(data, col = ' lightblue ') 

Korzystając z reguły Sturgesa, R zdecydował się użyć w sumie 8 grup na histogramie.

Przykład 2: Określ liczbę przedziałów do użycia na histogramie

Poniższy kod pokazuje, jak utworzyć histogram dla tego samego wektora danych i użyć dokładnie 6 grup:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 6 bins
hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 7 )) 

Środki ostrożności dotyczące wyboru określonej liczby pojemników

Liczba grup użytych w histogramie ma ogromny wpływ na sposób interpretacji zbioru danych.

Jeśli użyjemy zbyt małej liczby grup, prawdziwy wzorzec leżący u podstaw danych może zostać ukryty:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 3 bins
hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 4 )) 

I odwrotnie, jeśli użyjemy zbyt wielu grup, możemy po prostu zwizualizować szum w zbiorze danych:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 15 bins
hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 16 )) 

Ogólnie rzecz biorąc, domyślna reguła Sturgesa używana w R ma tendencję do tworzenia histogramów z optymalną liczbą grup.

Możesz użyć podanego tutaj kodu, aby utworzyć histogram z dokładną liczbą przedziałów, ale uważaj, aby nie wybrać zbyt wielu lub zbyt małych przedziałów.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe funkcje za pomocą histogramów w R:

Jak wykreślić wiele histogramów w R
Jak utworzyć histogram dwóch zmiennych w R
Jak utworzyć histogram częstotliwości względnej w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *