Python에서 데이터를 중앙에 배치하는 방법: 예제 포함
데이터 세트를 중앙에 배치한다는 것은 데이터 세트의 각 개별 관측치 의 평균값을 빼는 것을 의미합니다.
데이터 세트를 중앙에 배치하면 데이터 세트의 평균값은 0이 됩니다.
다음 예에서는 Python에서 데이터를 중앙에 배치하는 방법을 보여줍니다.
예시 1: NumPy 배열의 값을 중앙에 배치
다음과 같은 NumPy 배열이 있다고 가정합니다.
import numpy as np #create NumPy array data = np. array ([4, 6, 9, 13, 14, 17, 18, 19, 19, 21]) #display mean of array print ( data.mean ()) 14.0
각 개별 관찰에서 평균 배열 값을 빼는 함수를 정의할 수 있습니다.
#create function to data center
center_function = lambda x: x - x. mean ()
#apply function to original NumPy array
data_centered = center_function(data)
#view updated Array
print (data_centered)
array([-10., -8., -5., -1., 0., 3., 4., 5., 5., 7.])
결과 값은 데이터 세트의 중심 값입니다.
원래 테이블의 평균이 14였으므로 이 함수는 단순히 원래 테이블의 각 개별 값에서 14를 뺍니다.
예를 들어:
- 중앙 배열의 첫 번째 값 = 4 – 14 = -10
- 중앙 배열의 두 번째 값 = 6 – 14 = -8
- 중앙 배열의 세 번째 값 = 9 – 14 = -5
등등.
또한 중앙 테이블의 평균이 0인지 확인할 수도 있습니다.
#display mean of centered array print ( data_centered.mean ()) 0.0
예 2: Pandas DataFrame의 열을 중앙에 배치
다음과 같은 팬더 DataFrame이 있다고 가정합니다.
import pandas as pd #createDataFrame df = pd. DataFrame ({' x ': [1, 4, 5, 6, 6, 8, 9], ' y ': [7, 7, 8, 8, 8, 9, 12], ' z ': [3, 3, 4, 4, 6, 7, 7]}) #view DataFrame print (df) X Y Z 0 1 7 3 1 4 7 3 2 5 8 4 3 6 8 4 4 6 8 6 5 8 9 7 6 9 12 7
pandas apply() 함수를 사용하여 DataFrame의 각 열 값을 중앙에 배치할 수 있습니다.
#center the values in each column of the DataFrame df_centered = df. apply ( lambda x: xx.mean ()) #view centered DataFrame print (df_centered) X Y Z 0 -4.571429 -1.428571 -1.857143 1 -1.571429 -1.428571 -1.857143 2 -0.571429 -0.428571 -0.857143 3 0.428571 -0.428571 -0.857143 4 0.428571 -0.428571 1.142857 5 2.428571 0.571429 2.142857 6 3.428571 3.571429 2.142857
그런 다음 각 열의 평균 값이 0인지 확인할 수 있습니다.
#display mean of each column in the DataFrame df_centered. mean () x 2.537653e-16 y-2.537653e-16 z 3.806479e-16 dtype:float64
열 평균은 과학적 표기법으로 표시되지만 각 값은 기본적으로 0입니다.
추가 리소스
다음 튜토리얼에서는 Python에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.
Python에서 절사 평균을 계산하는 방법
Python에서 평균 제곱 오차(MSE)를 계산하는 방법
Pandas에서 선택한 열의 평균을 계산하는 방법