Socs: 분포를 설명하는 데 유용한 약어


통계에서 우리는 종종 데이터 세트가 어떻게 배포되는지 이해하고 싶어합니다. 특히, 분포에 대해 알아두면 유용한 네 가지 사항이 있습니다.

1 . 모양

  • 분포가 대칭입니까, 아니면 한쪽으로 치우쳐 있습니까?
  • 분포가 단봉(피크 1개)입니까 아니면 쌍봉 (피크 2개)입니까?

2. 이상치

  • 분포에 특이치가 있습니까?

3. 센터

  • 평균, 중앙값 및 분포 방식은 무엇입니까?

4.확산

  • 분포의 범위, 사분위간 범위, 표준 편차 및 분산은 무엇입니까?

SOCS 는 이 네 가지를 기억하는 데 사용할 수 있는 유용한 약어입니다. ‘모양, 이상값, 중심, 확산’을 의미합니다.

SOCS를 사용하여 분포를 설명하는 방법에 대한 간단한 예를 살펴보겠습니다.

예: SOCS를 사용하여 분포를 설명하는 방법

20가지 식물 샘플의 높이를 보여주는 다음 데이터 세트가 있다고 가정해 보겠습니다.

SOCS를 사용하여 데이터 값의 분포를 설명하는 방법은 다음과 같습니다.

모양

먼저 분포의 형태를 설명하고 싶습니다.

분포 모양을 시각화하는 유용한 방법은 데이터 세트에 있는 각 값의 빈도를 표시하는 히스토그램을 만드는 것입니다.

분포가 대칭입니까, 아니면 한쪽으로 치우쳐 있습니까?   히스토그램을 보면 분포가 대략 대칭임을 알 수 있습니다. 즉, 가치관은 어느 쪽으로도 치우치지 않습니다.

분포가 단봉(피크 1개)입니까 아니면 쌍봉(피크 2개)입니까? 분포는 단봉형입니다. “7” 값에서 최고점을 갖습니다.

특이치

다음으로 데이터세트에 이상값이 있는지 확인하려고 합니다. 히스토그램에서 분포를 시각적으로 검사하고 22가 잠재적으로 이상값임을 확인할 수 있습니다.

통계에 SOCS를 사용한 히스토그램의 예

이상값을 공식적으로 정의하는 일반적인 방법은 세 번째 사분위수 위 또는 첫 번째 사분위수 아래의 사분위수 범위의 1.5배인 값입니다.

사분위간 범위 계산기를 사용하여 20개의 원시 데이터 값을 입력하고 세 번째 사분위수가 9 이고 사분위간 범위가 3 이므로 9 + (1.5*3) = 13.5 보다 큰 값은 이상값임을 확인할 수 있습니다. 정의상 .

22는 13.5보다 크므로 22를 이상값으로 선언할 수 있습니다.

센터

그런 다음 분포의 중심이 어디에 있는지 설명하고 싶습니다. 우리가 사용할 수 있는 중심 경향의 세 가지 일반적인 측정값은 평균, 중앙값, 최빈값입니다.

평균: 분포의 평균값입니다. 모든 개별 값을 더한 다음 총 값 수로 나누어 이를 찾습니다.

평균 = (8+4+6+7+7+6+7+8+6+11+8+22+10+9+9+7+5+7+6+4) / 20 = 7.85

중앙값: 분포의 “평균” 값입니다. 우리는 모든 값을 가장 작은 것부터 가장 큰 것 순으로 정렬한 다음 중앙값을 식별하여 이를 찾습니다. 7 로 밝혀졌습니다.

4, 4, 5, 6, 6, 6, 6, 7, 7, 7, 7 , 7, 8 , 8, 8, 9, 9, 10, 11, 22

모드: 가장 자주 나타나는 값입니다. 7 로 밝혀졌습니다.

확산

다음으로, 분포에서 값의 분포를 설명하고자 합니다. 우리가 사용할 수 있는 네 가지 일반적인 분산 측정값은 범위, 사분위 범위, 표준 편차 및 분산입니다.

범위: 데이터 세트에서 가장 큰 값과 가장 작은 값의 차이입니다. 이는 22 – 4 = 18 입니다.

사분위간 범위: 데이터 값의 중간 50%의 너비를 측정합니다. 20개의 원시 데이터 값을 사분위수 범위 계산기에 입력하면 이 값이 3 인 것을 알 수 있습니다.

표준 편차: 데이터 값의 평균 분포를 측정한 것입니다. 20개의 원시 데이터 값을 분산 및 표준편차 계산기에 입력하면 표준편차가 3.69 인 것을 알 수 있습니다.

분산: 이는 단순히 표준 편차를 제곱한 것입니다. 이는 3.69 2 = 13.63 과 같습니다.

결론

SOCS를 가이드로 사용하여 식물 높이 분포를 다음과 같이 설명할 수 있었습니다.

  • 분포는 단봉형이고 대칭적이었습니다. 즉, 피크가 하나만 있고 한쪽으로 치우치지 않았습니다.
  • 분포에는 하나의 이상값(22)이 있었습니다.
  • 분포의 평균은 7.85, 중앙값은 7, 최빈값은 7이었습니다.
  • 분포의 범위는 18, 사분위간 범위는 3, 표준 편차는 3.69, 분산은 13.63이었습니다.

SOCS를 사용하여 모든 분포를 설명할 수 있습니다. 이는 분포의 모양, 이상치가 있는지 여부, 대략 중심이 어디에 있는지, 데이터 값을 분포하는 방법을 완전히 이해하는 데 유용한 방법입니다. 이다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다