상관 행렬

에 의해 벤자민 앤더슨 8월 5, 2023 통계 댓글 0개

이 기사에서는 상관 행렬이 무엇인지, 공식은 무엇인지, 상관 행렬을 해석하는 방법을 알아봅니다. 또한 상관행렬 해석의 구체적인 예를 볼 수 있습니다.

상관 행렬이란 무엇입니까?

상관 행렬은 변수 i 와 j 사이의 상관 계수를 i,j 위치에 포함하는 행렬입니다.

따라서 상관행렬은 주대각선이 1로 채워진 정방행렬이고, i 행과 j 열의 요소는 변수 i 와 변수 j 사이의 상관계수 값으로 구성된다.

따라서 상관 행렬의 공식은 다음과 같습니다.

금

$r_{ij}$

변수 간의 상관 계수입니다.

$i$

그리고

$j.$

따라서 데이터 세트의 상관 행렬을 찾으려면 상관 계수가 어떻게 계산되는지 아는 것이 중요합니다. 기억나지 않는 경우 다음 링크에서 온라인 계산기를 사용하여 계산하는 방법을 확인할 수 있습니다.

➤ 참고: 상관계수 계산기

상관계수의 특성은 변수의 순서가 계산에 중요하지 않다는 것입니다. 즉, 상관계수

$r_{ij}$

는 다음과 같습니다

$r_{ji}.$

따라서 상관행렬은 대칭이다.

$\displaystyle R=\begin{pmatrix}1&r_{12}&r_{13}&\dots&r_{1n}\\[1.1ex] r_{12}&1&r_{23}&\dots&r_{2n}\\[1.1ex] r_{13}&r_{23}&1&\dots&r_{3n}\\[1.1ex] \vdots &\vdots &\vdots &\ddots &\vdots\\[1.1ex] r_{1n}&r_{2n}&r_{3n}&\dots&1\end{pmatrix}$

상관행렬이 의미를 가지려면 통계 데이터 세트에 2개 이상의 변수가 있어야 합니다. 그렇지 않으면 단일 상관 계수를 결정하는 것만으로도 충분하며 상관 행렬은 의미가 있습니다.

상관 행렬을 만드는 방법

상관 행렬의 정의를 바탕으로 이러한 유형의 통계 행렬이 어떻게 생성되는지 살펴보겠습니다.

각 변수 쌍의 상관 계수를 계산합니다. 변수의 순서는 결과를 변경하지 않으므로 각 변수 쌍에 대해 한 번만 계산하면 됩니다.
데이터 계열의 변수 개수와 동일한 차원의 정사각 행렬을 만듭니다. 이 행렬은 상관 행렬이 됩니다.
상관 행렬의 주대각선의 각 요소에 1을 넣습니다.
변수 i , j 의 상관 계수를 i , j 및 j , i 위치에 넣습니다.
상관 행렬이 생성되면 남은 것은 그 값을 해석하는 것뿐입니다.

단순히 상관 행렬을 실행하는 것만으로는 충분하지 않으며, 그 값을 해석하고 그 의미를 이해해야 합니다. 다음 섹션에서는 상관 행렬을 해석하는 방법을 설명합니다.

상관 행렬의 해석

상관 행렬을 올바르게 해석하려면 상관 계수 값의 범위가 -1에서 +1까지라는 점을 고려해야 합니다.

r=-1 : 두 변수는 완벽한 음의 상관관계를 가지므로 모든 점이 연결되는 음의 기울기를 갖는 선을 그릴 수 있습니다.
-1<r<0 : 두 변수 사이의 상관관계는 음수이므로 한 변수가 증가하면 다른 변수는 감소합니다. 값이 -1에 가까울수록 변수와 음의 관련성이 더 높습니다.
r=0 : 두 변수 사이의 상관관계가 매우 약합니다. 실제로 두 변수 사이의 선형 관계는 0입니다. 이는 변수가 비선형 관계를 가질 수 있으므로 변수가 독립적이라는 의미는 아닙니다.
0<r<1 : 두 변수 사이의 상관관계는 양수이며, 값이 +1에 가까울수록 변수 사이의 관계가 더 강합니다. 이 경우 한 변수의 값이 증가하면 다른 변수의 값도 증가하는 경향이 있습니다.
r=1 : 두 변수는 완벽한 양의 상관 관계를 갖습니다. 즉, 양의 선형 관계를 갖습니다.

따라서 상관행렬을 해석하기 위해서는 각각의 상관계수를 해석하고 서로 다른 결과를 비교하는 것이 필요하다.

이렇게 하면 어떤 변수가 서로 가장 관련이 있는지, 어떤 변수가 가장 중요한지, 어떤 변수가 실제로 서로 관계가 없는지 등을 확인할 수 있습니다.

상관 행렬 예

상관 행렬이 무엇으로 구성되어 있고 어떻게 해석되는지 완전히 이해하기 위해 이 섹션에서는 상관 행렬의 예를 분석하겠습니다.

상관 행렬의 해석은 계수 값을 기반으로 합니다. 따라서 가장 강한 상관관계는 변수 A와 변수 B 사이의 관계라는 것을 알 수 있는데, 그 이유는 해당 계수가 가장 크기 때문입니다(0.87).

반면에 변수 C는 모든 계수가 0에 매우 가깝고 따라서 매우 낮기 때문에 실제로 어떤 변수와도 상관 관계가 없습니다. 따라서 분석을 단순화하기 위해 통계 연구에서 이 변수를 제거하는 것을 고려할 수도 있습니다.

마찬가지로, 변수 D와 다른 변수의 모든 관계는 음수입니다. 즉, 변수 D와 다른 변수 간의 상관 관계는 역입니다. 이는 변수가 제거되어야 함을 의미하는 것이 아니라 변수 D가 음의 상관 관계에 있다는 것을 의미합니다.

보시다시피, 상관 행렬은 데이터를 요약하고 데이터 세트의 다양한 변수 간의 관계를 전반적으로 분석하는 데 매우 유용합니다.

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기