Python에서 데이터를 표준화하는 방법: 예제 포함

에 의해 벤자민 앤더슨 7월 24, 2023 가이드 댓글 0개

데이터세트를 표준화한다는 것은 데이터세트의 모든 값을 평균값이 0, 표준편차가 1이 되도록 조정하는 것을 의미합니다.

데이터 세트의 값을 정규화하려면 다음 공식을 사용합니다.

x _새로운 = (x _i – x ) / s

금:

x _i : 데이터세트의 ^i번째 값
x : 표본의 의미
s : 표본의 표준편차

다음 구문을 사용하여 Python에서 pandas DataFrame의 모든 열을 빠르게 정규화할 수 있습니다.

 (df- df.mean ())/df. std ()

다음 예에서는 이 구문을 실제로 사용하는 방법을 보여줍니다.

예시 1: 모든 DataFrame 열 표준화

다음 코드는 Pandas DataFrame의 모든 열을 표준화하는 방법을 보여줍니다.

 import pandas as pd

#create data frame
df = pd. DataFrame ({' y ': [8, 12, 15, 14, 19, 23, 25, 29],
                   ' x1 ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' x2 ': [11, 8, 10, 6, 6, 5, 9, 12],
                   ' x3 ': [2, 2, 3, 2, 5, 5, 7, 9]})

#view data frame
df

	y x1 x2 x3
0 8 5 11 2
1 12 7 8 2
2 15 7 10 3
3 14 9 6 2
4 19 12 6 5
5 23 9 5 5
6 25 9 9 7
7 29 4 12 9

#standardize the values in each column
df_new = (df- df.mean ())/df. std ()

#view new data frame
df_new

	        y x1 x2 x3
0 -1.418032 -1.078639 1.025393 -0.908151
1 -0.857822 -0.294174 -0.146485 -0.908151
2 -0.437664 -0.294174 0.634767 -0.525772
3 -0.577717 0.490290 -0.927736 -0.908151
4 0.122546 1.666987 -0.927736 0.238987
5 0.682756 0.490290 -1.318362 0.238987
6 0.962861 0.490290 0.244141 1.003746
7 1.523071 -1.470871 1.416019 1.768505

각 열의 평균과 표준편차가 각각 0과 1인 것을 확인할 수 있습니다.

 #view mean of each column
df_new. mean ()

y 0.000000e+00
x1 2.775558e-17
x2 -4.163336e-17
x3 5.551115e-17
dtype:float64

#view standard deviation of each column
df_new. std ()

y 1.0
x1 1.0
x2 1.0
x3 1.0
dtype:float64

예시 2: 특정 DataFrame 열 정규화

때로는 DataFrame의 특정 열만 정규화하고 싶을 수도 있습니다.

예를 들어, 많은 기계 학습 알고리즘 의 경우 특정 모델을 데이터에 맞추기 전에 예측 변수만 표준화할 수 있습니다.

다음 코드는 Pandas DataFrame의 특정 열을 표준화하는 방법을 보여줍니다.

 import pandas as pd

#create data frame
df = pd. DataFrame ({' y ': [8, 12, 15, 14, 19, 23, 25, 29],
                   ' x1 ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' x2 ': [11, 8, 10, 6, 6, 5, 9, 12],
                   ' x3 ': [2, 2, 3, 2, 5, 5, 7, 9]})

#view data frame
df

	y x1 x2 x3
0 8 5 11 2
1 12 7 8 2
2 15 7 10 3
3 14 9 6 2
4 19 12 6 5
5 23 9 5 5
6 25 9 9 7
7 29 4 12 9

#define predictor variable columns
df_x = df[[' x1 ', ' x2 ', ' x3 ']]

#standardize the values for each predictor variable
df[[' x1 ',' x2 ',' x3 ']] = (df_x- df_x.mean ())/df_x. std ()

#view new data frame
df

         y x1 x2 x3
0 8 -1.078639 1.025393 -0.908151
1 12 -0.294174 -0.146485 -0.908151
2 15 -0.294174 0.634767 -0.525772
3 14 0.490290 -0.927736 -0.908151
4 19 1.666987 -0.927736 0.238987
5 23 0.490290 -1.318362 0.238987
6 25 0.490290 0.244141 1.003746
7 29 -1.470871 1.416019 1.768505

열 “y”는 변경되지 않은 상태로 유지되지만 “x1”, “x2” 및 “x3” 열은 모두 표준화되어 있습니다.

예측 변수의 각 열의 평균과 표준 편차가 각각 0과 1과 같은지 확인할 수 있습니다.

 #view mean of each predictor variable column
df[[' x1 ', ' x2 ', ' x3 ']]. mean ()

x1 2.775558e-17
x2 -4.163336e-17
x3 5.551115e-17
dtype:float64

#view standard deviation of each predictor variable column
df[[' x1 ', ' x2 ', ' x3 ']]. std ()

x1 1.0
x2 1.0
x3 1.0
dtype:float64

추가 리소스

Pandas DataFrame의 열을 정규화하는 방법
Python에서 이상값을 제거하는 방법
표준화 또는 정규화: 차이점은 무엇입니까?

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

예시 1: 모든 DataFrame 열 표준화

예시 2: 특정 DataFrame 열 정규화

추가 리소스

저자 소개

벤자민 앤더슨

의견을 추가하다