수정된 z 점수란 무엇입니까? (정의 & #038; 예)


통계에서 z-점수는 값이 평균 에서 얼마나 많은 표준 편차를 가지고 있는지 알려줍니다. 다음 공식을 사용하여 z-점수를 계산합니다.

Z 점수 = (x i – μ) / σ

금:

  • x i : 단일 데이터 값
  • μ: 데이터 세트의 평균
  • σ: 데이터세트의 표준편차

Z 점수는 종종 데이터 세트에서 이상값을 탐지하는 데 사용됩니다. 예를 들어 z-점수가 -3보다 작거나 3보다 큰 관측치는 종종 이상값으로 간주됩니다.

그러나 z-점수는 비정상적으로 크거나 작은 데이터 값의 영향을 받을 수 있습니다. 이것이 이상값을 탐지하는 보다 강력한 방법이 다음과 같이 계산 된 수정된 z-점수를 사용하는 이유입니다.

수정된 z-점수 = 0.6745(x i – x̃) / MAD

금:

  • x i : 단일 데이터 값
  • x̃: 데이터 세트의 중앙값
  • MAD: 데이터 세트의 중앙값 절대 편차

수정된 z-점수는 이상값 의 영향을 받는 것으로 알려진 평균과 달리 중앙값을 사용하여 z-점수를 계산하기 때문에 더 강력합니다.

Iglewicz와 Hoaglin은 수정된 z-점수가 -3.5보다 작거나 3.5보다 큰 값을 잠재적 이상값으로 표시할 것을 권장합니다.

다음 단계별 예에서는 주어진 데이터 세트에 대해 수정된 z-점수를 계산하는 방법을 보여줍니다.

1단계: 데이터 생성

16개의 값을 가진 다음 데이터 세트가 있다고 가정합니다.

2단계: 중앙값 찾기

다음으로 중앙값을 구하겠습니다. 이는 데이터 세트의 중간점을 나타내며 16 으로 나타납니다.

3단계: 각 값과 중앙값 간의 절대 차이 찾기

다음으로, 각 개별 데이터 값과 중앙값의 절대차를 알아 보겠습니다. 예를 들어 첫 번째 데이터 값과 중앙값 간의 절대 차이는 다음과 같이 계산됩니다.

절대 차이 = |6 – 16| = 10

동일한 공식을 사용하여 각 개별 데이터 값과 중앙값 간의 절대 차이를 계산할 수 있습니다.

4단계: 절대 중앙값 편차 찾기

다음으로 절대 중앙값 편차를 구하겠습니다. 이는 두 번째 열의 중앙값으로 8 입니다.

5단계: 각 데이터 값에 대해 수정된 Z-점수 찾기

마지막으로 다음 공식을 사용하여 각 데이터 값에 대한 수정된 z-점수를 계산할 수 있습니다.

수정된 z-점수 = 0.6745(x i – x̃) / MAD

예를 들어 첫 번째 데이터 값에 대한 수정된 z-점수는 다음과 같이 계산됩니다.

수정된 z-점수 = 0.6745*(6-16) / 8 = -0.843

데이터 세트의 각 값에 대해 이 공식을 반복할 수 있습니다.

데이터세트의 어떤 값도 -3.5보다 작거나 3.5보다 큰 수정된 z-점수를 갖고 있지 않음을 알 수 있으므로 이 데이터세트의 어떤 값도 잠재적 이상치로 표시하지 않습니다.

이상치를 처리하는 방법

데이터 세트에 이상값이 있는 경우 다음과 같은 몇 가지 옵션이 있습니다.

  • 이상값이 데이터 입력 오류로 인한 결과가 아닌지 확인하세요. 때로는 개인이 데이터를 저장하는 동안 단순히 잘못된 데이터 값을 입력하는 경우도 있습니다. 이상값이 있는 경우 먼저 값을 올바르게 입력했는지, 오류가 아닌지 확인하세요.
  • 이상값에 새 값을 할당합니다 . 이상값이 데이터 입력 오류의 결과인 것으로 판명되면 데이터 세트의 평균이나 중앙값 과 같은 새 값을 할당하기로 결정할 수 있습니다.
  • 이상치를 제거합니다. 값이 실제로 이상값인 경우 전체 분석에 상당한 영향을 미칠 경우 해당 값을 제거하도록 선택할 수 있습니다. 최종 보고서나 분석에서 이상치를 제거했다는 사실을 꼭 언급하세요.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다