누락된 값이 있는 r의 상관관계를 계산하는 방법
하나 이상의 변수에 결측값이 있는 경우 다음 방법을 사용하여 R에서 상관 계수를 계산할 수 있습니다.
방법 1: 결측값이 존재하는 상관계수 계산
cor(x, y, use=' complete.obs ')
방법 2: 결측값이 존재하는 상관행렬 계산
cor(df, use=' pairwise.complete.obs ')
다음 예에서는 각 방법을 실제로 사용하는 방법을 보여줍니다.
예시 1: 결측값이 존재하는 상관계수 계산
결측값이 존재할 때 두 변수 사이의 Pearson 상관 계수를 계산하기 위해 cor() 함수를 사용한다고 가정해 보겠습니다.
#create two variables
x <- c(70, 78, 90, 87, 84, NA, 91, 74, 83, 85)
y <- c(90, NA, 79, 86, 84, 83, 88, 92, 76, 75)
#attempt to calculate correlation coefficient between x and y
cor(x, y)
[1] NA
누락된 값을 처리하는 방법을 지정하지 않았으므로 cor() 함수는 NA를 반환합니다.
이 문제를 피하기 위해 R이 두 값이 모두 존재하는 쌍별 관찰만 사용하도록 알 수 있도록 use=’complete.obs’ 인수를 사용할 수 있습니다.
#create two variables
x <- c(70, 78, 90, 87, 84, NA, 91, 74, 83, 85)
y <- c(90, NA, 79, 86, 84, 83, 88, 92, 76, 75)
#calculate correlation coefficient between x and y
cor(x, y, use=' complete.obs ')
[1] -0.4888749
두 변수 사이의 상관계수는 -0.488749 로 나타났습니다.
cor() 함수는 상관계수를 계산할 때 값이 존재하는 두 쌍의 쌍 조합만 사용했다는 점에 유의하세요.
예시 2: 결측값이 존재하는 상관행렬 계산
누락된 값이 있을 때 cor() 함수를 사용하여 세 개의 변수가 있는 데이터 프레임에 대한 상관 행렬을 생성하려고 한다고 가정해 보겠습니다.
#create data frame with some missing values
df <- data. frame (x=c(70, 78, 90, 87, 84, NA, 91, 74, 83, 85),
y=c(90, NA, 79, 86, 84, 83, 88, 92, 76, 75),
z=c(57, 57, 58, 59, 60, 78, 81, 83, NA, 90))
#attempt to create correlation matrix for variables in data frame
cor(df)
X Y Z
x 1 NA NA
y NA 1 NA
z NA NA 1
cor() 함수는 누락된 값을 처리하는 방법을 지정하지 않았으므로 여러 위치에서 NA를 반환합니다.
이 문제를 피하기 위해 R이 두 값이 모두 존재하는 쌍별 관찰만 사용하도록 알 수 있도록 use=’pairwise.complete.obs’ 인수를 사용할 수 있습니다.
#create data frame with some missing values
df <- data. frame (x=c(70, 78, 90, 87, 84, NA, 91, 74, 83, 85),
y=c(90, NA, 79, 86, 84, 83, 88, 92, 76, 75),
z=c(57, 57, 58, 59, 60, 78, 81, 83, NA, 90))
#create correlation matrix for variables using only pairwise complete observations
cor(df, use=' pairwise.complete.obs ')
X Y Z
x 1.0000000 -0.4888749 0.1311651
y -0.4888749 1.0000000 -0.1562371
z 0.1311651 -0.1562371 1.0000000
이제 데이터베이스에 있는 각 변수 쌍 조합에 대한 상관 계수가 표시됩니다.
추가 리소스
다음 튜토리얼에서는 R에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.
R에서 상관 계수의 P 값을 찾는 방법
R에서 Spearman의 상관관계를 계산하는 방법
R에서 슬라이딩 상관관계를 계산하는 방법