피어슨 상관 계수


Pearson 상관 계수 (“제품-순간 상관 계수”라고도 함)는 두 변수 XY 사이의 선형 연관성을 측정한 것입니다. 값은 -1에서 1 사이입니다.

  • -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다.
  • 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다.
  • 1은 두 변수 사이의 완벽한 양의 선형 상관 관계를 나타냅니다.

피어슨 상관 계수를 찾는 공식

데이터 샘플에 대해 r 로 표시되는 Pearson 상관 계수를 찾는 공식은 다음과 같습니다( Wikipedia 참조 ).

소프트웨어를 사용하여 이 공식을 직접 계산할 수는 없으므로 이 공식을 직접 계산할 필요는 없지만, 예제를 살펴보면서 이 공식이 정확히 무엇을 하는지 이해하는 데 도움이 됩니다.

다음과 같은 데이터 세트가 있다고 가정합니다.

이러한 쌍(X, Y)을 산점도에 표시하면 다음과 같습니다.

산점도의 Pearson 상관관계 예

이 산점도를 보면 변수 X와 Y 사이에 양의 연관성이 있음을 알 수 있습니다. 즉, X가 증가하면 Y도 증가하는 경향이 있습니다. 그러나 이 두 변수가 얼마나 긍정적으로 연관되어 있는지 정확하게 수량화하려면 Pearson 상관 계수를 찾아야 합니다.

수식의 분자에만 초점을 맞춰 보겠습니다.

데이터 세트의 각 쌍(X, Y)에 대해 x 값과 평균 x 값의 차이, y 값과 평균 y 값의 차이를 찾은 다음 이 두 숫자를 곱해야 합니다.

예를 들어 첫 번째 쌍 (X, Y)는 (2, 2)입니다. 이 데이터 세트에서 x의 평균 값은 5이고 이 데이터 세트에서 y의 평균 값은 7입니다. 따라서 이 쌍의 x 값과 x의 평균 값 간의 차이는 2 – 5 = -3입니다. 이 쌍의 y 값과 평균 y 값의 차이는 2 – 7 = -5입니다. 그런 다음 이 두 숫자를 곱하면 -3 * -5 = 15가 됩니다.

직접 피어슨 상관관계 분석

방금 수행한 작업에 대한 시각적 개요는 다음과 같습니다.

피어슨 상관관계 예

그런 다음 각 쌍에 대해 다음을 수행하십시오.

피어슨 상관관계 예산점도의 Pearson 상관관계 예

공식의 분자를 구하는 마지막 단계는 간단히 다음 값을 모두 더하는 것입니다.

15 + 3 +3 + 15 = 36

그런 다음 공식의 분모는 x와 y에 대한 모든 제곱 차이의 합을 구하고 이 두 숫자를 곱한 다음 제곱근을 취하도록 알려줍니다.

먼저 x와 y의 차이의 제곱의 합을 구합니다.

다음으로, 이 두 숫자를 곱해보겠습니다: 20 * 68 = 1,360.

마지막으로 제곱근을 구하겠습니다. √ 1,360 = 36.88

그래서 우리는 공식의 분자가 36이고 분모가 36.88이라는 것을 알아냈습니다. 이는 Pearson 상관 계수가 r = 36 / 36.88 = 0.976 임을 의미합니다.

이 숫자는 1에 가까우며, 이는 변수 XY 사이에 강한 양의 선형 관계가 있음을 나타냅니다. 이는 산점도에서 관찰한 관계를 확인시켜 줍니다.

상관관계 보기

Pearson 상관 계수는 두 변수 사이의 선형 관계 유형 (양수, 음수, 없음)뿐만 아니라 이 관계의 강도 (약함, 보통, 강함)를 알려준다는 점을 기억하십시오.

두 변수의 산점도를 만들면 두 변수 간의 실제 관계를 수 있습니다. 우리가 관찰할 수 있는 다양한 유형의 선형 관계는 다음과 같습니다.

강력하고 긍정적인 관계: x축 변수가 증가하면 y축 변수도 증가합니다. 포인트가 밀접하게 모여 있어 강한 관계가 있음을 나타냅니다.

피어슨 상관 계수: 0.94

약하고 양의 관계: x축 변수가 증가하면 y축 변수도 증가합니다. 점들이 상당히 분산되어 있어 관계가 약함을 나타냅니다.

피어슨 상관 계수: 0.44

관계 없음: 변수 간에 명확한 관계(양수 또는 음수)가 없습니다.

피어슨 상관 계수: 0.03

강한 음의 관계: x축 변수가 증가하면 y축 변수가 감소합니다. 포인트가 촘촘하게 모여 있어 강한 관계를 나타냅니다.

피어슨 상관계수: -0.87

약하고 음의 관계: x축 변수가 증가하면 y축 변수가 감소합니다. 점들이 상당히 분산되어 있어 관계가 약함을 나타냅니다.

피어슨 상관 계수: – 0.46

피어슨 상관 계수의 유의성 테스트

데이터 세트에 대한 피어슨 상관 계수를 찾을 때 우리는 더 큰 모집단 의 데이터 샘플을 사용하여 작업하는 경우가 많습니다. 이는 두 변수가 전체 모집단에서 실제로 상관관계가 없더라도 두 변수에 대해 0이 아닌 상관관계를 찾는 것이 가능하다는 것을 의미합니다.

예를 들어, 전체 모집단의 각 데이터 포인트에 대해 변수 XY 에 대한 산점도를 생성하고 다음과 같다고 가정합니다.

상관관계가 없는 예

이 두 변수가 상관관계가 없다는 것은 명백합니다. 그러나 모집단에서 10개 포인트의 표본을 추출할 때 다음 포인트를 선택할 수도 있습니다.

상관관계 예

이 점 샘플의 Pearson 상관 계수는 0.93으로, 모집단 상관 관계가 0임에도 불구하고 강한 양의 상관 관계를 나타냅니다.

두 변수 사이의 상관관계가 통계적으로 유의한지 여부를 검정하기 위해 다음 검정 통계량을 찾을 수 있습니다.

검정 통계량 T = r * √ (n-2) / (1-r 2 )

여기서 n 은 표본의 쌍 수이고, r 은 Pearson 상관 계수이며, T 검정 통계량은 자유도가 n-2인 분포를 따릅니다.

피어슨 상관 계수의 유의성을 테스트하는 방법에 대한 예를 검토해 보겠습니다.

다음 데이터 세트는 12명의 키와 몸무게를 보여줍니다.

아래 산점도는 이 두 변수의 값을 보여줍니다.

상관관계 산점도

이 두 변수에 대한 피어슨 상관 계수는 r = 0.836입니다.

검정 통계량 T = 0.836 * √ (12 -2) / (1-0.836 2 ) = 4.804.

t 분포 계산기 에 따르면 자유도가 10인 점수 4.804의 p-값은 0.0007입니다. 0.0007 < 0.05이므로 이 예에서 체중과 키 사이의 상관관계는 알파 = 0.05에서 통계적으로 유의하다는 결론을 내릴 수 있습니다.

지침

Pearson 상관 계수는 두 변수에 선형 연관성이 있는지 여부를 알려주는 데 유용할 수 있지만 Pearson 상관 계수를 해석할 때는 세 가지 사항을 염두에 두어야 합니다.

1. 상관관계는 인과관계를 의미하지 않습니다. 두 변수가 서로 연관되어 있기 때문에 한 변수가 반드시 다른 변수의 출현 빈도를 높이는 것은 아닙니다. 이에 대한 전형적인 예는 아이스크림 판매와 상어 공격 사이의 긍정적인 상관관계입니다. 일년 중 특정 시기에 아이스크림 판매가 증가하면 상어 공격도 증가하는 경향이 있습니다.

이것은 아이스크림을 먹으면 상어 공격이 발생한다는 것을 의미합니까? 당연히 아니지! 이는 단순히 여름에 얼음 소비와 상어 공격이 증가하는 경향이 있다는 것을 의미합니다. 여름에는 얼음이 더 인기가 있고 여름에는 더 많은 사람들이 바다로 가기 때문입니다.

2. 상관관계는 특이치에 민감합니다. 극단적인 이상값은 Pearson 상관 계수를 크게 변경할 수 있습니다. 아래 예를 고려하십시오.

상관 이상치의 예

변수 XY 의 피어슨 상관 계수는 0.00 입니다. 하지만 데이터세트에 이상치가 있다고 가정해 보세요.

피어슨 상관관계 예

그러나 이 두 변수에 대한 Pearson 상관 계수는 0.878 입니다. 이 이상치 하나가 모든 것을 변화시킵니다. 그렇기 때문에 두 변수의 상관 관계를 계산할 때 산점도를 사용하여 변수를 시각화하여 이상값을 확인하는 것이 좋습니다.

3. 피어슨 상관 계수는 두 변수 사이의 비선형 관계를 포착하지 않습니다. 다음과 같은 관계를 갖는 두 개의 변수가 있다고 가정해 보겠습니다.

비선형 관계에 대한 상관관계

이 두 변수에 대한 피어슨 상관 계수는 선형 관계가 없기 때문에 0.00입니다. 그러나 이 두 변수는 비선형 관계를 가지고 있습니다. 즉, y 값은 단순히 x 값의 제곱입니다.

Pearson 상관 계수를 사용할 때 두 변수가 선형적 으로 관련되어 있는지 여부를 단순히 테스트한다는 점을 명심하십시오. Pearson 상관 계수를 통해 두 변수가 상관 관계가 없다고 말해도 여전히 비선형 관계를 가질 수 있습니다. 이는 두 변수 간의 관계를 분석할 때 산점도를 만드는 것이 유용한 또 다른 이유입니다. 이는 비선형 관계를 감지하는 데 도움이 될 수 있습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다