상관 행렬을 읽는 방법


통계에서 우리는 종종 두 변수 사이의 관계를 이해하려고 합니다.

예를 들어, 학생이 공부하는 시간과 시험에서 받는 성적 사이의 관계를 이해하고 싶을 수 있습니다.

이 관계를 정량화하는 한 가지 방법은 두 변수 사이의 선형 연관성을 측정하는 Pearson 상관 계수를 사용하는 것입니다 . -1과 1 사이의 값을 가집니다. 여기서:

  • -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다.
  • 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다.
  • 1은 두 변수 사이의 완벽한 양의 선형 상관 관계를 나타냅니다.

상관 계수가 0에서 멀어질수록 두 변수 간의 관계가 더 강해집니다.

관련 항목: “강한” 상관 관계로 간주되는 것은 무엇입니까?

그러나 어떤 경우에는 여러 변수 쌍 간의 상관 관계를 이해하고 싶습니다. 이러한 경우 여러 변수 간의 상관 계수를 보여주는 정사각형 테이블인 상관 행렬을 만들 수 있습니다.

상관 행렬 예

아래의 상관 행렬은 여러 교육 관련 변수 간의 상관 계수를 나타냅니다.

상관 행렬 예

표의 각 셀은 두 특정 변수 간의 상관 관계를 보여줍니다. 예를 들어, 아래 강조 표시된 셀은 “공부에 소비한 시간”과 “시험 성적” 사이의 상관 관계가 0.82 로, 두 항목이 강한 양의 상관 관계가 있음을 나타냅니다. 더 많은 시간을 공부하는 것은 더 높은 시험 점수와 밀접한 관련이 있습니다.

상관 행렬을 읽는 예

그리고 아래 강조 표시된 셀은 “공부에 소비한 시간”과 “수면에 소비한 시간” 사이의 상관관계가 -0.22 임을 보여 주며, 이는 두 요소가 약한 음의 상관관계를 갖고 있음을 나타냅니다. 공부하는 데 더 많은 시간을 소비할수록 수면에 소비하는 시간은 줄어듭니다.

상관 행렬의 음의 상관 관계 예

그리고 아래 강조 표시된 셀은 “수면 시간”과 “IQ 점수” 사이의 상관 관계가 0.06 으로 기본적으로 상관 관계가 없음을 나타냅니다. 학생의 수면 시간과 IQ 점수 사이에는 연관성이 거의 없습니다.

상관 관계가 없는 상관 행렬의 예

또한 표의 대각선에 있는 상관 계수는 각 변수가 그 자체와 완벽하게 상관되어 있기 때문에 모두 1과 같습니다. 이 셀은 해석에 유용하지 않습니다.

상관 행렬의 대각선 셀 예

상관 행렬의 변형

상관 행렬은 완벽하게 대칭입니다. 예를 들어 오른쪽 상단 셀에는 왼쪽 하단 셀과 정확히 동일한 값이 표시됩니다.

대칭 상관 행렬 예

실제로 두 셀은 ‘공부에 소비한 시간’과 ‘학교 성적’ 사이의 상관관계를 측정합니다.

상관 행렬은 대칭형이므로 행렬에 표시되는 상관 계수 중 절반은 중복되고 불필요합니다. 따라서 때로는 상관 행렬의 절반만 표시됩니다.

상관 행렬의 절반

때로는 상관 계수를 더욱 쉽게 읽을 수 있도록 상관 행렬이 히트 맵처럼 색상이 지정되는 경우도 있습니다.

히트맵 상관 행렬 예

상관 행렬을 사용해야 하는 경우

실제로 상관행렬은 다음 세 가지 이유로 흔히 사용됩니다.

1. 상관 행렬은 일련의 데이터를 편리하게 요약합니다.

상관 행렬은 데이터 세트의 모든 변수 간의 상관 관계를 요약하는 간단한 방법입니다. 예를 들어, 1,000명의 학생에 대한 다음 정보가 포함된 다음 데이터 세트가 있다고 가정합니다.

상관 행렬의 원시 데이터 세트 예

원시 데이터만 보고 각 변수 간의 관계를 이해하는 것은 매우 어려울 것입니다. 다행스럽게도 상관 행렬은 각 변수 쌍 간의 상관 관계를 빠르게 이해하는 데 도움이 될 수 있습니다.

2. 상관행렬은 회귀분석의 진단 역할을 합니다.

다중 선형 회귀 분석 의 주요 가정 중 하나는 모델의 어떤 독립 변수도 모델의 다른 변수와 강한 상관 관계가 없다는 것입니다.

두 독립 변수의 상관 관계가 높으면 다중 공선성 이라는 문제가 발생하고 회귀 결과를 해석하기 어려울 수 있습니다.

잠재적인 다중 공선성 문제를 발견하는 가장 간단한 방법 중 하나는 상관 행렬을 보고 변수가 서로 높은 상관 관계가 있는지 시각적으로 확인하는 것입니다.

3. 상관 행렬은 다른 분석의 입력으로 사용될 수 있습니다.

상관행렬은 탐색적 요인 분석, 구조방정식 모델 등 기타 복잡한 분석의 입력으로 사용됩니다.

추가 리소스

다음 자습서에서는 다양한 통계 소프트웨어를 사용하여 상관 행렬을 만드는 방법을 설명합니다.

Excel에서 상관 행렬을 만드는 방법
SPSS에서 상관 행렬을 만드는 방법
Stata에서 상관 행렬을 만드는 방법
Python에서 상관 행렬을 만드는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다