Python에서 데이터를 중앙에 배치하는 방법: 예제 포함

에 의해 벤자민 앤더슨 7월 21, 2023 가이드 댓글 0개

데이터 세트를 중앙에 배치한다는 것은 데이터 세트의 각 개별 관측치 의 평균값을 빼는 것을 의미합니다.

데이터 세트를 중앙에 배치하면 데이터 세트의 평균값은 0이 됩니다.

다음 예에서는 Python에서 데이터를 중앙에 배치하는 방법을 보여줍니다.

예시 1: NumPy 배열의 값을 중앙에 배치

다음과 같은 NumPy 배열이 있다고 가정합니다.

 import numpy as np

#create NumPy array
data = np. array ([4, 6, 9, 13, 14, 17, 18, 19, 19, 21])

#display mean of array
print ( data.mean ())

14.0

각 개별 관찰에서 평균 배열 값을 빼는 함수를 정의할 수 있습니다.

 #create function to data center
center_function = lambda x: x - x. mean ()

#apply function to original NumPy array
data_centered = center_function(data)

#view updated Array
print (data_centered)

array([-10., -8., -5., -1., 0., 3., 4., 5., 5., 7.])

결과 값은 데이터 세트의 중심 값입니다.

원래 테이블의 평균이 14였으므로 이 함수는 단순히 원래 테이블의 각 개별 값에서 14를 뺍니다.

예를 들어:

중앙 배열의 첫 번째 값 = 4 – 14 = -10
중앙 배열의 두 번째 값 = 6 – 14 = -8
중앙 배열의 세 번째 값 = 9 – 14 = -5

등등.

또한 중앙 테이블의 평균이 0인지 확인할 수도 있습니다.

 #display mean of centered array
print ( data_centered.mean ())

0.0

예 2: Pandas DataFrame의 열을 중앙에 배치

다음과 같은 팬더 DataFrame이 있다고 가정합니다.

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' x ': [1, 4, 5, 6, 6, 8, 9],
                   ' y ': [7, 7, 8, 8, 8, 9, 12],
                   ' z ': [3, 3, 4, 4, 6, 7, 7]})

#view DataFrame
print (df)

   X Y Z
0 1 7 3
1 4 7 3
2 5 8 4
3 6 8 4
4 6 8 6
5 8 9 7
6 9 12 7

pandas apply() 함수를 사용하여 DataFrame의 각 열 값을 중앙에 배치할 수 있습니다.

 #center the values in each column of the DataFrame
df_centered = df. apply ( lambda x: xx.mean ())

#view centered DataFrame
print (df_centered)

	        X Y Z
0 -4.571429 -1.428571 -1.857143
1 -1.571429 -1.428571 -1.857143
2 -0.571429 -0.428571 -0.857143
3 0.428571 -0.428571 -0.857143
4 0.428571 -0.428571 1.142857
5 2.428571 0.571429 2.142857
6 3.428571 3.571429 2.142857

그런 다음 각 열의 평균 값이 0인지 확인할 수 있습니다.

 #display mean of each column in the DataFrame
df_centered. mean ()

x 2.537653e-16
y-2.537653e-16
z 3.806479e-16
dtype:float64

열 평균은 과학적 표기법으로 표시되지만 각 값은 기본적으로 0입니다.

추가 리소스

다음 튜토리얼에서는 Python에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

Python에서 절사 평균을 계산하는 방법
Python에서 평균 제곱 오차(MSE)를 계산하는 방법
Pandas에서 선택한 열의 평균을 계산하는 방법

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

예시 1: NumPy 배열의 값을 중앙에 배치

예 2: Pandas DataFrame의 열을 중앙에 배치

추가 리소스

저자 소개

벤자민 앤더슨

의견을 추가하다