R에서 데이터를 중앙에 배치하는 방법(예제 포함)

에 의해 벤자민 앤더슨 7월 26, 2023 가이드 댓글 0개

데이터 세트를 중앙에 배치한다는 것은 데이터 세트의 각 개별 관측치의 평균값을 빼는 것을 의미합니다.

예를 들어 다음과 같은 데이터 세트가 있다고 가정해 보겠습니다.

평균값은 14인 것으로 나타났습니다. 따라서 이 데이터 세트를 중앙에 두려면 각 개별 관측값에서 14를 뺍니다.

데이터 센터로 가는 방법

중심 데이터세트의 평균값은 0입니다.

이 튜토리얼에서는 R에서 데이터를 중앙에 배치하는 방법에 대한 몇 가지 예를 제공합니다.

예시 1: 벡터 값을 중앙에 배치

다음 코드는 기본 R scale() 함수를 사용하여 벡터의 값을 중앙에 맞추는 방법을 보여줍니다.

 #createvector
data <- c(4, 6, 9, 13, 14, 17, 18, 19, 19, 21)

#subtract the mean value from each observation in the vector
scale(data, scale= FALSE )

      [,1]
 [1,] -10
 [2,] -8
 [3,] -5
 [4,] -1
 [5,] 0
 [6,] 3
 [7,] 4
 [8,] 5
 [9,] 5
[10,] 7

attr(,"scaled:center")
[1] 14

결과 값은 데이터 세트의 중심 값입니다. scale() 함수는 또한 데이터세트의 평균값이 14임을 알려줍니다.

scale() 함수는 기본적으로 각 개별 관찰에서 평균을 뺀 다음 이를 표준 편차로 나눕니다.

scale=FALSE를 지정함으로써 R이 표준편차로 나누지 않도록 지시합니다.

예 2: 데이터 프레임의 가운데 열

다음 코드는 R 데이터베이스의 sapply() 함수와 scale() 함수를 사용하여 데이터 프레임의 각 열 값을 중앙에 배치하는 방법을 보여줍니다.

 #create data frame
df <- data.frame(x = c(1, 4, 5, 6, 6, 8, 9),
                 y = c(7, 7, 8, 8, 8, 9, 12),
                 z = c(3, 3, 4, 4, 6, 7, 7))

#center each column in the data frame
df_new <- sapply(df, function (x) scale(x, scale= FALSE ))

#display data frame
df_new

              X Y Z
[1,] -4.5714286 -1.4285714 -1.8571429
[2,] -1.5714286 -1.4285714 -1.8571429
[3,] -0.5714286 -0.4285714 -0.8571429
[4,] 0.4285714 -0.4285714 -0.8571429
[5,] 0.4285714 -0.4285714 1.1428571
[6,] 2.4285714 0.5714286 2.1428571
[7,] 3.4285714 3.5714286 2.1428571

colMeans() 함수를 사용하여 새 데이터 프레임의 각 열의 평균이 0인지 확인할 수 있습니다.

 colMeans(df_new)

            xyz 2.537653e-16 -2.537653e-16 3.806479e-16

값은 과학적 표기법으로 표시되지만 각 값은 본질적으로 0입니다.

추가 리소스

R의 열을 평균하는 방법
R의 특정 열을 합산하는 방법
R의 여러 열에서 이상값을 제거하는 방법

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

예시 1: 벡터 값을 중앙에 배치

예 2: 데이터 프레임의 가운데 열

추가 리소스

저자 소개

벤자민 앤더슨

의견을 추가하다