스터지스란? 자? (정의 & #038; 예)


히스토그램은 데이터 세트의 값 분포를 시각화하는 데 도움이 되는 그래프입니다.

히스토그램에 사용되는 상자의 수는 데이터를 해석하는 방법에 큰 영향을 미칠 수 있는 것으로 나타났습니다.

너무 적은 수의 그룹을 사용하면 데이터의 실제 기본 패턴이 숨겨질 수 있습니다.

그리고 너무 많은 그룹을 사용하면 데이터 세트의 노이즈를 간단히 시각화할 수 있습니다.

다행히도 Sturges의 규칙이라는 방법을 사용하여 히스토그램에 사용할 최적의 상자 수를 결정할 수 있습니다.

Sturges의 규칙은 다음 공식을 사용하여 히스토그램에 사용할 최적의 그룹 수를 결정합니다.

최적의 Bin = ⌈log 2n + 1⌉

금:

  • n: 데이터 세트의 총 관측치 수입니다.
  • ⌈ ⌉: “천장”을 의미하는 기호, 즉 답을 가장 가까운 정수로 반올림합니다.

예: 스터지스의 법칙

총 n = 31개의 관측값을 갖는 다음 데이터 세트가 있다고 가정합니다.

Sturges의 규칙을 사용하여 히스토그램에서 이러한 값을 시각화하는 데 사용할 최적의 상자 수를 결정할 수 있습니다.

최적의 Bin = ⌈log 2 (31) + 1⌉ = ⌈4.954 + 1⌉ = ⌈5.954⌉ = 6 .

Sturges의 규칙에 따르면 이러한 값 분포를 시각화하는 데 사용하는 히스토그램에서 6개의 빈을 사용해야 합니다.

이 데이터 세트에 대해 6개 그룹이 포함된 히스토그램은 다음과 같습니다.

Sturges의 규칙을 사용하여 히스토그램에 사용할 상자 수 결정

데이터의 노이즈를 단순히 시각화하기에는 너무 많지 않으면서 값의 기본 분포에 대한 좋은 아이디어를 얻는 데 이것이 어떻게 충분해 보이는지 확인하십시오.

Sturges의 규칙에 대한 공통 값

다음 표는 Sturges의 규칙에 따라 데이터 세트의 총 관측치 수를 기반으로 히스토그램에 사용할 최적의 그룹 수를 보여줍니다.

다양한 표본 크기에 대한 Sturges의 규칙

Sturges의 규칙에 대한 대안

Sturges의 규칙은 히스토그램에 사용할 최적의 Bin 수를 결정하는 가장 일반적인 방법이지만 다음을 포함한 몇 가지 대체 방법이 있습니다.

제곱근 법칙 : 상자 수 = ⌈√ n

쌀 규칙: 쓰레기통 수 = ⌈2 * 3n

Freedman-Diaconis 규칙: 상자 수 = (2*IQR) / 3n 여기서 IQR 은 사분위수 범위입니다.

보너스: Sturges 규칙 계산기

이 무료 온라인 계산기를 사용하면 Sturges의 규칙을 자동으로 적용하여 데이터 세트의 크기를 기반으로 히스토그램에 사용할 최적의 그룹 수를 결정할 수 있습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다