R에서 히스토그램 나누기를 지정하는 방법(예제 포함)


기본적으로 R의 hist() 함수는 Sturges의 규칙을 사용하여 히스토그램에 사용할 bin 수를 결정합니다.

Sturges의 규칙은 다음 공식을 사용하여 히스토그램에 사용할 최적의 그룹 수를 결정합니다.

최적의 Bin = ⌈log 2n + 1⌉

금:

  • n: 데이터 세트의 총 관측치 수입니다.
  • ⌈ ⌉: “천장”을 의미하는 기호, 즉 답을 가장 가까운 정수로 반올림합니다.

예를 들어, 데이터 세트에 31개의 관측치가 있는 경우 Sturge의 규칙은 다음 공식을 사용하여 히스토그램에 사용할 최적의 그룹 수를 결정합니다.

최적의 Bin = ⌈log 2 (31) + 1⌉ = ⌈4.954 + 1⌉ = ⌈5.954⌉ = 6 .

Sturges의 규칙에 따르면 이 데이터 세트를 시각화하려면 히스토그램에서 6개의 상자를 사용해야 합니다.

R에서 hist() 함수를 사용하면 Sturges의 규칙을 사용하여 히스토그램에 표시할 빈 수를 자동으로 선택합니다.

 hist(data)

사용할 bin 수를 다르게 지정하기 위해 break 인수를 사용하더라도 R은 이를 사용할 bin 수에 대한 “제안”으로만 사용합니다.

 hist(data, breaks= 7 )

그러나 다음 코드를 사용하여 R이 히스토그램에서 특정 개수의 상자를 사용하도록 할 수 있습니다.

 #create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))

참고 : length.out에는 n+1 의 길이를 사용해야 합니다. 여기서 n 은 원하는 bin 수입니다.

다음 예제에서는 이 코드를 실제로 사용하는 방법을 보여줍니다.

예: R에서 히스토그램 나누기 지정

R에 16개의 값을 가진 다음 데이터 세트가 있다고 가정합니다.

 #create vector of 16 values
data <- c(2, 3, 3, 3, 4, 4, 5, 6, 8, 10, 12, 14, 15, 18, 20, 21)

hist() 함수를 사용하면 R은 5개의 bin으로 다음과 같은 히스토그램을 생성합니다.

 #create histogram
hist(data)

참고 : R은 Sturges의 규칙을 사용하여 5개의 그룹이 16개의 관측값이 있는 데이터 세트를 시각화하는 데 사용할 최적의 그룹 수임을 결정했습니다.

히스토그램에 사용할 7개 그룹을 지정하기 위해 break 인수를 사용하려고 하면 R은 이를 “제안”으로만 받아들이고 대신 10개 그룹을 사용하도록 선택합니다.

 #attempt to create histogram with 7 bins
hist(data, breaks= 7 ) 

그러나 다음 코드를 사용하여 R이 히스토그램에서 7개의 빈을 사용하도록 할 수 있습니다.

 #create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))

결과는 7개의 동일한 간격의 상자로 구성된 히스토그램입니다.

추가 리소스

다음 튜토리얼에서는 R에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

R에서 상대 빈도 히스토그램을 만드는 방법
R에서 여러 히스토그램을 그리는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다