상관관계

이 기사에서는 두 변수 사이의 상관 관계의 의미, 상관 계수를 계산하는 방법 및 존재하는 다양한 유형의 상관 관계에 대해 설명합니다. 또한 두 변수 간의 상관 관계 값을 해석하는 방법도 보여줍니다.

상관관계란 무엇입니까?

상관관계는 두 변수 사이의 관계 정도를 나타내는 통계적 척도입니다. 보다 구체적으로, 선형 상관은 서로 다른 두 변수 간의 선형 상관 정도를 결정하는 데 사용됩니다.

두 변수가 연결되어 있으면 한 변수의 값을 변경하면 다른 변수의 값도 변경됩니다. 예를 들어, 변수 A가 증가하면 변수 B도 증가하는 경우 변수 A와 B 사이에는 상관 관계가 있습니다.

상관관계 유형

두 확률 변수 간의 관계에 따라 다음 유형의 선형 상관 관계가 구별됩니다.

  • 직접 상관관계(또는 양의 상관관계) : 한 변수가 증가하면 다른 변수도 증가합니다.
  • 역상관(또는 음의 상관) : 한 변수가 증가하면 다른 변수는 감소하고, 반대로 한 변수가 감소하면 다른 변수가 증가합니다.
  • 상관관계 없음(상관 없음) : 두 변수 사이에 관계가 없습니다.

이는 존재하는 다양한 유형의 선형 상관관계라는 점을 명심하십시오. 그러나 두 변수 사이의 수학적 관계는 직선으로 표시할 수 없고 대신 비유와 같은 더 복잡한 함수를 사용해야 할 수도 있습니다. 또는 로그. 이 경우 비선형 상관 관계 가 됩니다.

상관 계수

상관 관계의 정의와 존재하는 다양한 유형의 상관 관계를 고려하여 이 통계 값이 어떻게 계산되는지 살펴보겠습니다.

선형 상관 계수 또는 피어슨 상관 계수 라고도 하는 상관 계수는 두 변수 간의 상관 값입니다.

두 통계변수의 상관계수는 변수의 공분산과 각 변수의 분산 곱의 제곱근 사이의 몫과 같습니다. 따라서 상관계수를 계산하는 공식은 다음과 같습니다.

\rho_{XY}=\cfrac{Cov(X,Y)}{\sqrt{Var(X)\cdot Var(Y)}}

모집단의 상관 계수를 계산할 때 상관 기호는 그리스 문자 ρ입니다. 그러나 표본을 기준으로 계수를 계산할 때 문자 r은 일반적으로 기호로 사용됩니다.

상관 지수의 값은 -1에서 +1 사이일 수 있습니다. 아래에서는 상관계수 값이 어떻게 해석되는지 살펴보겠습니다.

다음 링크에서 상관 계수가 계산되는 구체적인 예를 볼 수 있습니다.

Spearman 또는 Kendall의 상관 계수와 같은 다른 유형의 상관 계수가 있다는 점을 명심하십시오. 그러나 가장 일반적인 것은 의심할 여지 없이 피어슨 상관 계수입니다.

상관관계 해석

상관 계수 값의 범위는 -1부터 +1까지입니다. 따라서 상관계수의 값에 따라 두 변수 사이의 관계가 한 방향 또는 다른 방향이라는 것을 의미합니다. 상관관계 값을 해석하는 방법은 다음과 같습니다.

  • r=-1 : 두 변수는 완벽한 음의 상관관계를 가지므로 모든 점이 연결되는 음의 기울기를 갖는 선을 그릴 수 있습니다.
  • -1<r<0 : 두 변수 사이의 상관관계는 음수이므로 한 변수가 증가하면 다른 변수는 감소합니다. 값이 -1에 가까울수록 변수와 음의 관련성이 더 높습니다.
  • r=0 : 두 변수 사이의 상관관계가 매우 약합니다. 실제로 두 변수 사이의 선형 관계는 0입니다. 이는 변수가 비선형 관계를 가질 수 있으므로 변수가 독립적이라는 의미는 아닙니다.
  • 0<r<1 : 두 변수 사이의 상관관계는 양수이며, 값이 +1에 가까울수록 변수 사이의 관계가 더 강합니다. 이 경우 한 변수의 값이 증가하면 다른 변수의 값도 증가하는 경향이 있습니다.
  • r=1 : 두 변수는 완벽한 양의 상관 관계를 갖습니다. 즉, 양의 선형 관계를 갖습니다.
상관관계의 종류

위의 산점도에서 볼 수 있듯이 두 변수 사이의 상관관계가 강할수록 그래프에서 점들이 서로 더 가까워집니다. 반면에, 점들이 너무 멀리 떨어져 있으면 상관 관계가 약하다는 것을 의미합니다.

두 변수 사이에 상관관계가 있다고 해서 두 변수 사이에 인과관계가 있다는 의미는 아닙니다 . 즉, 두 변수 사이의 상관관계가 있다고 해서 한 변수의 변화가 다른 변수의 변화 원인이라는 의미는 아닙니다. 변하기 쉬운.

예를 들어, 신체의 서로 다른 두 가지 호르몬 생산 사이에 긍정적인 관계가 있다는 사실이 밝혀졌다고 해서 반드시 한 호르몬의 증가가 다른 호르몬의 증가로 이어진다는 의미는 아닙니다. 신체는 질병과 싸우기 위해 두 호르몬이 모두 필요하고 동시에 두 호르몬의 수준을 증가시키기 때문에 두 호르몬을 모두 생성할 수 있으며, 이 경우 원인은 질병이 될 수 있습니다. 두 호르몬 사이에 인과관계가 있는지 확인하려면 더 자세한 연구가 수행되어야 합니다.

상관관계 및 회귀

상관관계와 회귀는 두 변수 사이의 관계를 분석하는 데 사용되기 때문에 일반적으로 관련된 두 가지 개념입니다.

상관관계는 두 변수 사이의 관계를 정량화하는 통계적 척도이지만 회귀에는 두 변수가 관련될 수 있도록 하는 방정식(선형 회귀인 경우 직선이 됨)을 만드는 것이 포함됩니다.

따라서 상관관계는 단순히 변수 간의 관계에 수치 값을 제공하는 반면, 회귀 분석은 다른 변수에 비해 한 변수의 값을 예측하는 데 사용될 수 있습니다.

일반적으로 먼저 상관계수를 계산하여 변수 간의 상관관계를 분석합니다. 그리고 상관관계가 중요하면 데이터 세트에 대한 회귀 분석을 실행합니다.

선형 회귀에서 얻은 선의 기울기 값과 상관 계수를 혼동하는 것이 일반적이지만 동일하지는 않습니다.

상관 행렬

상관 행렬은 변수 ij 사이의 상관 계수를 i,j 위치에 포함하는 행렬입니다.

따라서 상관행렬은 주대각선이 1로 채워진 정방행렬이고, i 행과 j 열의 요소는 변수 i 와 변수 j 사이의 상관계수 값으로 구성된다.

따라서 상관행렬의 공식은 다음과 같다.

상관 행렬

r_{ij}

변수 간의 상관 계수입니다.

i

그리고

j.

상관행렬은 어떤 관계가 강한지 빠르게 확인할 수 있기 때문에 결과를 요약하고 여러 변수 간의 상관관계를 동시에 비교하는 데 매우 유용합니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다