R에서 na.rm을 사용하는 방법(예제 포함)
R에서 기술 통계를 계산할 때 na.rm=TRUE 인수를 사용하여 누락된 값을 제외할 수 있습니다.
#calculate mean and exclude missing values mean(x, na. rm = TRUE ) #calculate sum and exclude missing values sum(x, na. rm = TRUE ) #calculate maximum and exclude missing values max(x, na. rm = TRUE ) #calculate standard deviation and exclude missing values sd(x, na. rm = TRUE )
다음 예에서는 실제로 벡터 및 데이터 프레임에서 이 인수를 사용하는 방법을 보여줍니다.
예 1: 벡터와 함께 na.rm 사용
누락된 값이 포함된 R의 다음 벡터의 평균, 합계, 최대값 및 표준 편차를 계산하려고 한다고 가정합니다.
#define vector with some missing values
x <- c(3, 4, 5, 5, 7, NA, 12, NA, 16)
mean(x)
[1] NA
sum(x)
[1] NA
max(x)
[1] NA
sd(x)
[1] NA
이러한 각 함수는 NA 값을 반환합니다.
이러한 계산을 수행할 때 누락된 값을 제외하려면 다음과 같이 na.rm = TRUE 인수를 포함하면 됩니다.
#define vector with some missing values x <- c(3, 4, 5, 5, 7, NA, 12, NA, 16) mean(x, na. rm = TRUE ) [1] 7.428571 sum(x, na. rm = TRUE ) [1] 52 max(x, na. rm = TRUE ) [1] 16 sd(x, na. rm = TRUE ) [1] 4.790864
누락된 값을 제외하면서 각 계산을 성공적으로 수행할 수 있었습니다.
예 2: 데이터 프레임에 na.rm 사용
R에 누락된 값이 포함된 다음 데이터 프레임이 있다고 가정합니다.
#create data frame df <- data. frame (var1=c(1, 3, 3, 4, 5), var2=c(7, 7, NA, 3, 2), var3=c(3, 3, NA, 6, 8), var4=c(1, 1, 2, 8, NA)) #view data frame df var1 var2 var3 var4 1 1 7 3 1 2 3 7 3 1 3 3 NA NA 2 4 4 3 6 8 5 5 2 8 NA
apply() 함수를 사용하여 데이터 프레임의 각 열에 대한 기술 통계를 계산하고 na.rm = TRUE 인수를 사용하여 이러한 계산을 수행할 때 누락된 값을 제외할 수 있습니다.
#calculate mean of each column
apply(df, 2, mean, na. rm = TRUE )
var1 var2 var3 var4
3.20 4.75 5.00 3.00
#calculate sum of each column
apply(df, 2, sum, na. rm = TRUE )
var1 var2 var3 var4
16 19 20 12
#calculate max of each column
apply(df, 2, max, na. rm = TRUE )
var1 var2 var3 var4
5 7 8 8
#calculate standard deviation of each column
apply(df, 2, sd, na. rm = TRUE )
var1 var2 var3 var4
1.483240 2.629956 2.449490 3.366502
이번에도 결측값을 제외하면서 각 계산을 성공적으로 완료할 수 있었습니다.
추가 리소스
다음 튜토리얼에서는 R에서 누락된 값이 있는 다른 일반적인 작업을 수행하는 방법을 설명합니다.
R에서 is.null을 사용하는 방법
R에서 na.omit을 사용하는 방법
R에서 is.na를 사용하는 방법