표준화 또는 정규화: 차이점은 무엇입니까?
표준화 와 정규화는 데이터 크기를 조정하는 두 가지 방법입니다.
정규화는 평균이 0이고 표준 편차가 1이 되도록 데이터 세트의 크기를 조정합니다. 이를 위해 다음 수식을 사용합니다.
x 새로운 = (x i – x ) / s
금:
- x i : 데이터세트의 i번째 값
- x : 표본의 의미
- s : 표본의 표준편차
정규화는 각 값이 0과 1 사이가 되도록 데이터 세트의 크기를 조정합니다. 이는 다음 공식을 사용하여 수행됩니다.
x 신규 = (x i – x 최소 ) / (x 최대 – x 최소 )
금:
- x i : 데이터세트의 i번째 값
- x min : 데이터 세트의 최소값
- x max : 데이터세트의 최대값
다음 예에서는 실제로 데이터 세트를 표준화하고 정규화하는 방법을 보여줍니다.
예: 데이터 표준화 방법
다음과 같은 데이터 세트가 있다고 가정합니다.
데이터세트의 평균값은 43.15이고 표준편차는 22.13입니다.
13 의 첫 번째 값을 정규화하기 위해 이전에 공유한 공식을 적용합니다.
- x 새로운 = (x i – x ) / s = (13 – 43.15) / 22.13 = -1.36
16 의 두 번째 값을 정규화하기 위해 동일한 공식을 사용합니다.
- x 새로운 = (x i – x ) / s = (16 – 43.15) / 22.13 = -1.23
19 의 세 번째 값을 정규화하기 위해 동일한 공식을 사용합니다.
- x 새로운 = (x i – x ) / s = (19 – 43.15) / 22.13 = -1.09
이와 똑같은 공식을 사용하여 원본 데이터 세트의 각 값을 표준화할 수 있습니다.
예: 데이터 정규화 방법
이번에도 다음과 같은 데이터 세트가 있다고 가정해 보겠습니다.
데이터 세트의 최소값은 13이고 최대값은 71입니다.
13 의 첫 번째 값을 정규화하기 위해 이전에 공유한 공식을 적용합니다.
- x 신규 = (x i – x 최소 ) / (x 최대 – x 최소 ) = (13 – 13) / (71 – 13) = 0
16 의 두 번째 값을 정규화하기 위해 동일한 공식을 사용합니다.
- x 신규 = (x i – x 최소 ) / (x 최대 – x 최소 ) = (16 – 13) / (71 – 13) = 0.0517
19 의 세 번째 값을 정규화하기 위해 동일한 공식을 사용합니다.
- x 신규 = (x i – x 최소 ) / (x 최대 – x 최소 ) = (19 – 13) / (71 – 13) = 0.1034
이와 똑같은 공식을 사용하여 원본 데이터 세트의 각 값을 0과 1 사이로 정규화할 수 있습니다.
표준화 또는 정규화: 언제 사용합니까?
일반적으로 우리는 서로 다른 규모로 측정된 여러 변수가 있고 각 변수가 동일한 범위를 갖기를 원하는 일부 유형의 분석을 수행할 때 데이터를 정규화합니다 .
이는 특히 다른 단위로 측정되는 경우(즉, 한 변수는 인치로 측정되고 다른 변수는 야드로 측정되는 경우) 하나의 변수가 과도한 영향을 미치는 것을 방지합니다.
반면, 데이터 세트의 각 값이 평균과 얼마나 많은 표준 편차를 갖고 있는지 알고 싶을 때 일반적으로 데이터를 정규화합니다 .
예를 들어, 특정 학교에 다니는 500명의 학생에 대한 시험 점수 목록이 있을 수 있으며 각 시험 점수가 평균 점수와 얼마나 많은 표준 편차가 있는지 알고 싶습니다.
이 경우 원시 데이터를 정규화하여 이 정보를 알 수 있습니다. 그런 다음 표준화된 점수 1.26은 이 특정 학생의 시험 점수가 평균 시험 점수보다 1.26 표준 편차 높다는 것을 알려줍니다.
데이터를 정규화할지 표준화할지 여부에 관계없이 다음 사항에 유의하세요.
- 정규화된 데이터세트는 항상 0과 1 사이의 값을 갖습니다.
- 표준화된 데이터 세트는 평균이 0이고 표준 편차가 1이지만 최대값과 최소값에 대한 특정 상한 또는 하한은 없습니다.
특정 시나리오에 따라 데이터를 정규화하거나 표준화하는 것이 더 합리적일 수 있습니다.
추가 리소스
다음 튜토리얼에서는 다양한 통계 소프트웨어에서 데이터를 표준화하고 정규화하는 방법을 설명합니다.
R에서 데이터를 정규화하는 방법
Excel에서 데이터를 정규화하는 방법
Python에서 데이터를 정규화하는 방법
R에서 데이터를 표준화하는 방법