R에서 데이터를 중앙에 배치하는 방법(예제 포함)


데이터 세트를 중앙에 배치한다는 것은 데이터 세트의 각 개별 관측치의 평균값을 빼는 것을 의미합니다.

예를 들어 다음과 같은 데이터 세트가 있다고 가정해 보겠습니다.

평균값은 14인 것으로 나타났습니다. 따라서 이 데이터 세트를 중앙에 두려면 각 개별 관측값에서 14를 뺍니다.

데이터 센터로 가는 방법

중심 데이터세트의 평균값은 0입니다.

이 튜토리얼에서는 R에서 데이터를 중앙에 배치하는 방법에 대한 몇 가지 예를 제공합니다.

예시 1: 벡터 값을 중앙에 배치

다음 코드는 기본 R scale() 함수를 사용하여 벡터의 값을 중앙에 맞추는 방법을 보여줍니다.

 #createvector
data <- c(4, 6, 9, 13, 14, 17, 18, 19, 19, 21)

#subtract the mean value from each observation in the vector
scale(data, scale= FALSE )

      [,1]
 [1,] -10
 [2,] -8
 [3,] -5
 [4,] -1
 [5,] 0
 [6,] 3
 [7,] 4
 [8,] 5
 [9,] 5
[10,] 7

attr(,"scaled:center")
[1] 14

결과 값은 데이터 세트의 중심 값입니다. scale() 함수는 또한 데이터세트의 평균값이 14임을 알려줍니다.

scale() 함수는 기본적으로 각 개별 관찰에서 평균을 뺀 다음 이를 표준 편차로 나눕니다.

scale=FALSE를 지정함으로써 R이 표준편차로 나누지 않도록 지시합니다.

예 2: 데이터 프레임의 가운데 열

다음 코드는 R 데이터베이스의 sapply() 함수와 scale() 함수를 사용하여 데이터 프레임의 각 열 값을 중앙에 배치하는 방법을 보여줍니다.

 #create data frame
df <- data.frame(x = c(1, 4, 5, 6, 6, 8, 9),
                 y = c(7, 7, 8, 8, 8, 9, 12),
                 z = c(3, 3, 4, 4, 6, 7, 7))

#center each column in the data frame
df_new <- sapply(df, function (x) scale(x, scale= FALSE ))

#display data frame
df_new

              X Y Z
[1,] -4.5714286 -1.4285714 -1.8571429
[2,] -1.5714286 -1.4285714 -1.8571429
[3,] -0.5714286 -0.4285714 -0.8571429
[4,] 0.4285714 -0.4285714 -0.8571429
[5,] 0.4285714 -0.4285714 1.1428571
[6,] 2.4285714 0.5714286 2.1428571
[7,] 3.4285714 3.5714286 2.1428571

colMeans() 함수를 사용하여 새 데이터 프레임의 각 열의 평균이 0인지 확인할 수 있습니다.

 colMeans(df_new)

            xyz 2.537653e-16 -2.537653e-16 3.806479e-16 

값은 과학적 표기법으로 표시되지만 각 값은 본질적으로 0입니다.

추가 리소스

R의 열을 평균하는 방법
R의 특정 열을 합산하는 방법
R의 여러 열에서 이상값을 제거하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다