공분산 행렬을 읽는 방법


공분산은 한 변수의 변화가 두 번째 변수의 변화와 어떻게 연관되어 있는지를 측정한 것입니다. 보다 구체적으로 말하면 두 변수가 선형적으로 연관되는 정도를 측정하는 것입니다.

공분산 행렬은 다양한 변수 간의 공분산을 나타내는 정사각 행렬입니다. 이는 데이터 세트에서 다양한 변수가 어떻게 관련되어 있는지 이해하는 데 유용한 방법이 될 수 있습니다.

다음 예에서는 실제로 공분산 행렬을 읽는 방법을 보여줍니다.

공분산 행렬을 읽는 방법

학생을 위한 세 가지 다른 과목의 시험 점수에 대한 정보를 포함하는 다음과 같은 공분산 행렬이 있다고 가정합니다.


행렬의 대각선을 따른 값은 각 대상의 분산을 나타냅니다.

예를 들어:

  • 수학 결과의 분산은 64.9 입니다.
  • 과학 점수의 분산은 56.4 입니다.
  • 과거 점수의 분산은 75.6 입니다.

행렬의 다른 값은 서로 다른 대상 간의 공분산을 나타냅니다.

예를 들어:

  • 수학과 과학 점수 사이의 공분산은 33.2 입니다.
  • 수학 점수와 역사 점수 사이의 공분산은 –24.4 입니다.
  • 과학 점수와 역사 점수 사이의 공분산은 –24.1 입니다.

공분산의 양수는 두 변수가 동시에 증가하거나 감소하는 경향이 있음을 나타냅니다.

예를 들어, 수학과 과학은 양의 공분산( 33.2 )을 가지며, 이는 수학에서 높은 점수를 받은 학생이 과학에서도 높은 점수를 받는 경향이 있음을 나타냅니다.

반대로 수학 성적이 좋지 않은 학생은 과학 성적도 좋지 않은 경향이 있습니다.

공분산의 음수는 한 변수가 증가하면 두 번째 변수가 감소하는 경향이 있음을 나타냅니다.

예를 들어, 수학과 역사는 음의 공분산( -24.44 )을 가지며, 이는 수학 성적이 높은 학생이 역사 성적이 낮은 경향이 있음을 나타냅니다.

반대로, 수학에서 낮은 점수를 받은 학생들은 역사에서 높은 점수를 받는 경향이 있습니다.

공분산 행렬의 대칭성에 대한 참고 사항

공분산 행렬은 완벽하게 대칭이라는 점에 유의해야 합니다.

예를 들어 오른쪽 상단 셀에는 왼쪽 하단 셀과 정확히 동일한 값이 표시됩니다.

실제로 두 셀은 역사와 수학 사이의 공분산을 측정합니다.

공분산 행렬은 대칭형이므로 행렬에 표시되는 공분산 값의 절반은 중복되고 불필요합니다.

따라서 공분산 행렬의 절반만 표시되는 경우도 있습니다.

공분산 행렬을 사용해야 하는 경우

실제로는 공분산 행렬보다 상관 행렬을 더 자주 생성하고 해석해야 하는 경우가 많습니다.

그러나 공분산 행렬은 다양한 기계 학습 알고리즘 및 모델에 대해 “내부적으로” 사용되는 경우가 많습니다.

예를 들어, 공분산 행렬은 주성분 분석 중에 사용되며, 이는 많은 수의 변수가 포함된 데이터 세트의 기본 패턴을 이해하는 데 도움이 됩니다.

추가 리소스

다음 자습서에서는 다양한 통계 소프트웨어를 사용하여 공분산 행렬을 만드는 방법을 설명합니다.

R에서 공분산 행렬을 만드는 방법
Python에서 공분산 행렬을 만드는 방법
SPSS에서 공분산 행렬을 만드는 방법
Excel에서 공분산 행렬을 만드는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다