피어슨의 상관관계에 대한 다섯 가지 가설


Pearson 상관 계수 (“제품-순간 상관 계수”라고도 함)는 두 변수 간의 선형 연관성을 측정합니다.

항상 -1과 1 사이의 값을 취합니다. 여기서:

  • -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다.
  • 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다.
  • 1은 두 변수 사이의 완벽한 양의 선형 상관 관계를 나타냅니다.

그러나 두 변수 간의 Pearson 상관 계수를 계산하기 전에 다음 5가지 가정이 충족되는지 확인해야 합니다.

1. 측정 수준: 두 변수 모두 구간 또는 비율 수준에서 측정해야 합니다.

2. 선형 관계: 두 변수 사이에는 선형 관계가 있어야 합니다.

3. 정규성: 두 변수 모두 대략적인 정규 분포를 가져야 합니다.

4. 관련 쌍: 데이터 세트의 각 관측값에는 값 쌍이 있어야 합니다.

5. 이상값 없음: 데이터 세트에 극단적인 이상값이 없어야 합니다.

이 기사에서는 각 가정에 대한 설명과 가정이 충족되는지 확인하는 방법을 제공합니다.

가설 1: 측정 수준

두 변수 사이의 피어슨 상관 계수를 계산하려면 두 변수 모두 구간 또는 비율 수준에서 측정되어야 합니다.

다음 그래픽은 변수를 측정할 수 있는 네 가지 수준에 대한 빠른 설명을 제공합니다.

다음은 간격 척도로 측정할 수 있는 변수의 몇 가지 예입니다.

  • 온도: 화씨 또는 섭씨로 측정
  • 신용 점수: 300에서 850까지 측정됨
  • SAT 점수: 400에서 1,600까지 측정됨

다음은 비율 척도로 측정할 수 있는 변수의 몇 가지 예입니다.

  • 높이: 센티미터, 인치, 피트 등으로 측정됩니다.
  • 무게: 킬로그램, 파운드 등으로 측정됩니다.
  • 길이: 센티미터, 인치, 피트 등으로 측정됩니다.

변수가 순서 수준에서 측정된 경우 변수 간의 Spearman 상관 계수를 계산해야 합니다.

관련 항목: 측정 수준: 명목형, 순서형, 간격 및 비율

가설 2: 선형 관계

두 변수 사이의 피어슨 상관 계수를 계산하려면 두 변수 사이에 선형 관계가 있어야 합니다.

이 가설을 테스트하는 가장 쉬운 방법은 두 변수의 산점도를 만드는 것입니다. 플롯의 점이 대략 직선을 따르는 경우 선형 관계가 존재합니다.

그러나 점이 플롯 전체에 무작위로 흩어져 있거나 다른 유형의 관계(예: 2차)가 있는 경우 변수 간에 선형 관계가 존재하지 않습니다.

이 경우 Pearson 상관 계수는 변수 간의 관계를 적절하게 포착하지 못합니다.

가설 3: 정규성

Pearson 상관 계수는 또한 두 변수가 대략 정규 분포를 따른다고 가정합니다.

각 변수에 대한 히스토그램이나 QQ 플롯을 생성하여 이 가정을 시각적으로 확인할 수 있습니다.

1. 히스토그램

데이터 세트의 히스토그램이 대략 종 모양이라면 데이터가 정규 분포를 따르고 있을 가능성이 높습니다.

2. 큐큐랜드

“분위수-분위수”의 약자인 QQ 플롯은 x축을 따라 이론적 분위수(즉, 정규 분포를 따른 경우 데이터가 있을 위치)를 표시하고 y축을 따라 샘플의 분위수를 표시하는 플롯 유형입니다. (즉, 귀하의 데이터가 실제로 상주하는 곳).

데이터 값이 45도 각도를 이루는 대략적인 직선을 따르는 경우 데이터는 정규 분포를 따르는 것으로 간주됩니다.

정규 통계 검정을 수행하여 변수가 정규 분포를 따르는지 확인할 수도 있습니다.

검정의 p-값이 특정 유의 수준(예: α = 0.05)보다 낮으면 데이터가 정규 분포를 따르지 않는다고 말할 수 있는 충분한 증거가 있는 것입니다.

정규성을 테스트하는 데 일반적으로 사용되는 세 가지 통계 테스트가 있습니다.

1. Jarque-Bera 테스트

2. 샤피로-윌크 테스트

3. 콜모고로프-스미르노프 테스트

가설 4: 관련 쌍

또한 Pearson 상관 계수는 데이터 세트의 각 관측값 에 한 쌍의 값이 있어야 한다고 가정합니다.

이 가설은 검증하기 쉽습니다. 예를 들어 체중과 키 사이의 상관관계를 계산하는 경우 데이터세트의 각 관측값에 체중 측정값과 키 측정값이 있는지 확인하면 됩니다.

가설 5: 특이치가 없음

Pearson 상관 계수는 또한 이상값이 상관 계수 계산에 큰 영향을 미치기 때문에 데이터 세트에 극단적인 이상값이 없다고 가정합니다.

이를 설명하기 위해 다음 데이터 세트를 고려하십시오.

X와 Y 사이의 피어슨 상관 계수는 0.949 입니다.

그러나 데이터세트에 이상치가 있다고 가정해 보겠습니다.

X와 Y 사이의 피어슨 상관 계수는 이제 0.711 입니다.

이상값은 두 변수 간의 Pearson 상관 계수를 크게 변경합니다. 이 경우 데이터 세트에서 이상값을 제거하는 것이 합리적일 수 있습니다.

관련 항목: 전체 가이드: 데이터의 이상값을 제거해야 하는 경우

추가 리소스

다음 튜토리얼은 Pearson 상관 관계에 대한 추가 정보를 제공합니다.

피어슨 상관 계수 소개
APA 형식으로 Pearson 상관관계를 보고하는 방법
Pearson 상관 계수를 수동으로 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다