스터지스란? 자? (정의 & #038; 예)
히스토그램은 데이터 세트의 값 분포를 시각화하는 데 도움이 되는 그래프입니다.
히스토그램에 사용되는 상자의 수는 데이터를 해석하는 방법에 큰 영향을 미칠 수 있는 것으로 나타났습니다.
너무 적은 수의 그룹을 사용하면 데이터의 실제 기본 패턴이 숨겨질 수 있습니다.

그리고 너무 많은 그룹을 사용하면 데이터 세트의 노이즈를 간단히 시각화할 수 있습니다.

다행히도 Sturges의 규칙이라는 방법을 사용하여 히스토그램에 사용할 최적의 상자 수를 결정할 수 있습니다.
Sturges의 규칙은 다음 공식을 사용하여 히스토그램에 사용할 최적의 그룹 수를 결정합니다.
최적의 Bin = ⌈log 2n + 1⌉
금:
- n: 데이터 세트의 총 관측치 수입니다.
- ⌈ ⌉: “천장”을 의미하는 기호, 즉 답을 가장 가까운 정수로 반올림합니다.
예: 스터지스의 법칙
총 n = 31개의 관측값을 갖는 다음 데이터 세트가 있다고 가정합니다.

Sturges의 규칙을 사용하여 히스토그램에서 이러한 값을 시각화하는 데 사용할 최적의 상자 수를 결정할 수 있습니다.
최적의 Bin = ⌈log 2 (31) + 1⌉ = ⌈4.954 + 1⌉ = ⌈5.954⌉ = 6 .
Sturges의 규칙에 따르면 이러한 값 분포를 시각화하는 데 사용하는 히스토그램에서 6개의 빈을 사용해야 합니다.
이 데이터 세트에 대해 6개 그룹이 포함된 히스토그램은 다음과 같습니다.

데이터의 노이즈를 단순히 시각화하기에는 너무 많지 않으면서 값의 기본 분포에 대한 좋은 아이디어를 얻는 데 이것이 어떻게 충분해 보이는지 확인하십시오.
Sturges의 규칙에 대한 공통 값
다음 표는 Sturges의 규칙에 따라 데이터 세트의 총 관측치 수를 기반으로 히스토그램에 사용할 최적의 그룹 수를 보여줍니다.

Sturges의 규칙에 대한 대안
Sturges의 규칙은 히스토그램에 사용할 최적의 Bin 수를 결정하는 가장 일반적인 방법이지만 다음을 포함한 몇 가지 대체 방법이 있습니다.
제곱근 법칙 : 상자 수 = ⌈√ n ⌉
쌀 규칙: 쓰레기통 수 = ⌈2 * 3 √ n ⌉
Freedman-Diaconis 규칙: 상자 수 = (2*IQR) / 3 √ n 여기서 IQR 은 사분위수 범위입니다.
보너스: Sturges 규칙 계산기
이 무료 온라인 계산기를 사용하면 Sturges의 규칙을 자동으로 적용하여 데이터 세트의 크기를 기반으로 히스토그램에 사용할 최적의 그룹 수를 결정할 수 있습니다.