Excel에서 데이터를 변환하는 방법(로그, 제곱근, 세제곱근)


많은 통계 테스트에서는 데이터 세트가 정규 분포를 따른다고 가정합니다.

그러나 실제로는 이 가정이 위반되는 경우가 많습니다. 이 문제를 해결하는 한 가지 방법은 다음 세 가지 변환 중 하나를 사용하여 데이터 세트의 값을 변환하는 것입니다.

1. 로그 변환: y 값을 log(y) 로 변환합니다.

2. 제곱근 변환: y 값을 √y 로 변환합니다.

3. 세제곱근 변환: y 값을 y 1/3 으로 변환합니다.

이러한 변환을 수행하면 데이터는 일반적으로 정규 분포에 가까워집니다. 다음 예에서는 Excel에서 이러한 변환을 수행하는 방법을 보여줍니다.

Excel의 로그 변환

Excel의 데이터 세트에 로그 변환을 적용하려면 =LOG10() 함수를 사용할 수 있습니다.

다음 스크린샷은 Excel의 데이터 세트에 로그 변환을 적용하는 방법을 보여줍니다.

이 변환으로 인해 데이터 세트가 보다 정규 분포로 만들어졌는지 확인하기 위해 Excel에서 Jarque-Bera 정규성 테스트를 수행할 수 있습니다.

이 검정에 대한 검정 통계량은 다음과 같이 정의됩니다.

JB =(n/6) * (S 2 + (C 2 /4))

금:

  • n: 표본의 관측치
  • S: 샘플의 비대칭성
  • C: 마음에 드는 샘플

정규성 귀무가설 하에서 JB ~ X 2 (2).

검정 통계량에 해당하는 p-값이 특정 유의 수준(예: α = 0.05)보다 낮으면 귀무 가설을 기각하고 데이터가 정규 분포를 따르지 않는다는 결론을 내릴 수 있습니다.

다음 스크린샷은 원시 데이터 및 변환된 데이터에 대해 Jarque-Bera 테스트를 수행하는 방법을 보여줍니다.

변환된 데이터를 Excel에 저장

원시 데이터의 p-값이 0.05보다 작아 정규 분포를 따르지 않음 을 나타냅니다.

그러나 변환된 데이터의 p-값은 0.05 이상이므로 정규분포를 따른 다고 가정할 수 있습니다. 이는 로그 변환이 작동했음을 알려줍니다.

Excel의 제곱근 변환

Excel의 데이터 집합에 제곱근 변환을 적용하려면 =SQRT() 함수를 사용할 수 있습니다.

다음 스크린샷은 Excel의 데이터 세트에 제곱근 변환을 적용하는 방법을 보여줍니다.

Excel의 제곱근 변환

변환된 데이터에 대한 Jarque-Bera 정규성 검정의 p-값은 0.05 이상이며 이는 제곱근 변환이 효과적임을 나타냅니다.

Excel의 큐브 루트 변환

Excel의 데이터 집합에 큐브 루트 변환을 적용하려면 =DATA^(1/3) 함수를 사용할 수 있습니다.

다음 스크린샷은 Excel의 데이터 세트에 큐브 루트 변환을 적용하는 방법을 보여줍니다.

Excel의 큐브 루트 변환

변환된 데이터에 대한 Jarque-Bera 정규성 검정의 p-값은 0.05 이상이며, 이는 세제곱근 변환이 효과적임을 나타냅니다.

세 가지 데이터 변환을 통해 원시 데이터가 보다 정규 분포되게 효과적으로 만들어졌습니다.

세 가지 변환 중 로그 변환은 Jarque-Bera 정규성 테스트에서 가장 높은 p-값을 산출하여 해당 데이터가 세 가지 방법 변환 중에서 “가장” 정규 분포된 데이터가 되었을 가능성이 있음을 나타냅니다.

추가 리소스

Excel에서 Box-Cox 변환을 수행하는 방법
통계에서 정규성 가정은 무엇입니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다