범주형 변수 간의 상관관계를 계산하는 방법

에 의해 벤자민 앤더슨 7월 23, 2023 가이드 댓글 0개

우리는 연속적인 수치 변수 간의 상관 관계를 계산하기 위해 Pearson 상관 계수를 자주 사용합니다.

그러나 범주형 변수, 즉 다음과 같은 이름이나 레이블을 갖는 변수 간의 상관관계를 계산하려면 다른 측정항목을 사용해야 합니다.

결혼 상태(미혼, 기혼, 이혼)
흡연상태(흡연자, 비흡연자)
눈 색깔(파란색, 갈색, 녹색)

범주형 변수 간의 상관 관계를 계산하기 위해 일반적으로 사용되는 세 가지 측정값이 있습니다.

1. 사변형 상관관계: 이진 범주형 변수 간의 상관관계를 계산하는 데 사용됩니다.

2. 다항적 상관관계: 순서형 범주형 변수 간의 상관관계를 계산하는 데 사용됩니다.

3. Cramer의 V: 명목형 범주형 변수 간의 상관관계를 계산하는 데 사용됩니다.

다음 섹션에서는 이러한 세 가지 측정값을 각각 계산하는 방법에 대한 예를 제공합니다.

지표 1: 사분위 상관관계

사분위 상관은 이진 범주형 변수 간의 상관 관계를 계산하는 데 사용됩니다. 이진 변수는 두 가지 가능한 값 중 하나만 취할 수 있는 변수라는 점을 기억하십시오.

사중 상관 값의 범위는 -1부터 1까지입니다. 여기서 -1은 강한 음의 상관 관계를 나타내고, 0은 상관 관계가 없음을 나타내고, 1은 강한 양의 상관 관계를 나타냅니다.

예를 들어, 성별이 정당 선호와 연관되어 있는지 여부를 알고 싶다고 가정해 보겠습니다. 그래서 우리는 유권자 100명을 무작위로 표본 추출하여 선호하는 정당에 대해 질문합니다.

다음 표는 설문 조사 결과를 나타냅니다.

사분위 상관관계

각 범주형 변수는 이진형이므로 이 시나리오에서는 사중 상관 관계를 사용합니다. 즉, 각 변수는 두 개의 가능한 값만 가질 수 있습니다.

R에서 다음 코드를 사용하여 두 변수 간의 사중 상관 관계를 계산할 수 있습니다.

 library (psych)

#create 2x2 table
data = matrix(c(19, 12, 30, 39), nrow= 2 )

#view table
data

#calculate tetrachoric correlation
tetrachoric(data)

tetrachoric correlation 
[1] 0.27

4중 상관관계는 0.27 로 나타났습니다. 이 값은 매우 낮으며, 이는 성별과 정당 선호도 사이에 약한 연관성이 있음을 나타냅니다.

지표 2: 다성 상관관계

다항적 상관은 순서형 범주형 변수 간의 상관을 계산하는 데 사용됩니다. 순서형 변수는 가능한 값이 자연적인 순서를 갖는 변수라는 점을 기억하세요.

다항성 상관 값의 범위는 -1부터 1까지입니다. 여기서 -1은 강한 음의 상관 관계를 나타내고, 0은 상관 관계가 없음을 나타내고, 1은 강한 양의 상관 관계를 나타냅니다.

예를 들어, 서로 다른 두 영화 평가 기관의 영화 평가 간에 높은 상관 관계가 있는지 알고 싶다고 가정해 보겠습니다.

우리는 각 기관에 20개의 서로 다른 영화를 1~3점으로 평가하도록 요청합니다. 1은 “나쁨”, 2는 “나쁨”, 3은 “좋음”을 나타냅니다.

다음 표는 결과를 보여줍니다.

R에서 다음 코드를 사용하여 두 기관의 등급 간의 다항적 상관관계를 계산할 수 있습니다.

 library (polycor)

#define movie ratings
x <- c(1, 1, 2, 2, 3, 2, 2, 3, 2, 3, 3, 2, 1, 2, 2, 1, 1, 1, 2, 2)
y <- c(1, 1, 2, 1, 3, 3, 3, 2, 2, 3, 3, 3, 2, 2, 2, 1, 2, 1, 3, 3)

#calculate polychoric correlation between ratings
polychor(x, y)

[1] 0.7828328

다항성 상관관계는 0.78 로 나타났습니다. 이 값은 상당히 높은 것으로, 각 기관의 등급 간에 강한 긍정적인 연관성이 있음을 나타냅니다.

측정항목 3: Cramer의 V

Cramer의 V는 명목형 범주형 변수 간의 상관 관계를 계산하는 데 사용됩니다. 명목변수는 범주 레이블을 가지지만 자연적인 순서가 없는 변수라는 점을 기억하십시오.

Cramer의 V 값의 범위는 0에서 1까지이며, 0은 변수 간의 연관성이 없음을 나타내고 1은 변수 간의 강한 연관성을 나타냅니다.

예를 들어, 눈 색깔과 성별 사이에 상관관계가 있는지 알고 싶다고 가정해 보겠습니다. 따라서 우리는 50명에게 질문을 하여 다음과 같은 결과를 얻었습니다.

R에서 다음 코드를 사용하여 이 두 변수에 대한 Cramer의 V를 계산할 수 있습니다.

 library (rcompanion)

#create table
data = matrix(c(6, 9, 8, 5, 12, 10), nrow= 2 )

#view table
data

     [,1] [,2] [,3]
[1,] 6 8 12
[2,] 9 5 10

#calculate Cramer's V
cramerV(data)

Cramer V 
  0.1671

Cramer의 V는 0.1671 로 나타났습니다. 이 값은 매우 낮으며 성별과 눈 색깔 사이에 약한 연관성이 있음을 나타냅니다.

추가 리소스

피어슨 상관 계수 소개
사중 상관 관계 소개
범주형 변수 또는 양적 변수: 차이점은 무엇입니까?
측정 수준: 명목, 순서, 간격 및 비율

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기