"강한" 것으로 간주되는 것 상관관계?
통계에서 우리는 종종 두 변수가 서로 어떻게 연관되어 있는지 이해하려고 합니다. 예를 들어 다음 사항을 알고 싶을 수 있습니다.
- 학생이 공부하는 시간과 시험에서 받는 성적 사이에는 어떤 관계가 있나요?
- 실외온도와 푸드트럭에서 판매하는 아이스크림 콘의 개수는 어떤 관계가 있나요?
- 특정 비즈니스에 지출된 마케팅 비용과 총 수익 사이의 관계는 무엇입니까?
이러한 각 시나리오에서 우리는 서로 다른 두 변수 간의 관계를 이해하려고 노력하고 있습니다.
통계에서 두 변수 사이의 관계를 정량화하는 가장 일반적인 방법 중 하나는 두 변수 사이의 선형 연관성을 측정하는 피어슨 상관 계수를 사용하는 것입니다 . -1과 1 사이의 값을 가집니다. 여기서:
- -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다.
- 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다.
- 1은 두 변수 사이의 완벽한 양의 선형 상관 관계를 나타냅니다.
종종 r 로 표시되는 이 숫자는 두 변수 간의 관계 강도를 이해하는 데 도움이 됩니다. r 이 0에서 멀어질수록 두 변수 사이의 관계가 더 강해집니다 .
두 변수가 강한 양의 상관관계를 가질 수도 있고 강한 음의 상관 관계를 가질 수도 있다는 점에 유의하는 것이 중요합니다.
강한 양의 상관관계: 한 변수의 값이 증가하면 다른 변수의 값도 같은 방식으로 증가합니다. 예를 들어, 학생이 공부하는 시간이 많을수록 시험 점수가 높아지는 경향이 있습니다. 공부한 시간과 시험 점수는 강한 양의 상관관계를 가지고 있습니다.
강한 음의 상관관계: 한 변수의 값이 증가하면 다른 변수의 값은 감소하는 경향이 있습니다. 예를 들어, 암탉이 나이가 들수록 낳는 알의 수가 적어지는 경향이 있습니다. 암탉의 나이와 계란 생산량은 강한 음의 상관관계를 가지고 있습니다.
다음 표는 r 값을 기준으로 두 변수 간의 관계 강도를 해석하는 경험적 법칙을 보여줍니다.
| r 의 절대값 | 관계의 힘 |
|---|---|
| r < 0.25 | 관계 없음 |
| 0.25 < r < 0.5 | 약한 관계 |
| 0.5 < r < 0.75 | 적당한 관계 |
| r > 0.75 | 강력한 관계 |
r 의 절대값이 0.75 보다 크면 두 변수 사이의 상관관계가 강한 것으로 간주됩니다. 그러나 “강한” 상관관계의 정의는 분야마다 다를 수 있습니다.
의료
예를 들어, 의료 분야에서는 ‘강한’ 관계에 대한 정의가 훨씬 낮은 경우가 많습니다. 특정 약물 복용과 심장마비 감소 사이의 관계가 r = 0.3 인 경우 이는 다른 분야에서는 “약한 양성” 관계로 간주될 수 있지만 의학에서는 심장마비 가능성을 줄이기 위해 약을 복용할 가치가 있을 만큼 충분히 중요합니다. 심장 마비가 발생했습니다.
인적 자원
인적 자원과 같은 다른 분야에서는 낮은 상관 관계가 더 자주 사용될 수도 있습니다. 예를 들어, 대학 성적과 직업 성과 사이의 상관관계는 대략 r = 0.16 인 것으로 나타났습니다. 이는 꽤 낮은 수치이지만 회사가 최소한 인터뷰 과정에서 이를 고려해야 할 만큼 중요합니다.
기술
그리고 기술과 같은 분야에서는 어떤 경우에는 “강한” 것으로 간주되기 위해 변수 간의 상관 관계가 훨씬 높아야 할 수도 있습니다. 예를 들어, 기업이 자율주행 자동차를 만들고 자동차의 회전 결정과 사고 확률 사이의 상관관계가 r = 0.95 라면 이는 자동차를 만든 결과로 인해 자동차가 안전하다고 간주하기에는 아마도 너무 낮을 것입니다. 자율주행차는 r=0.95이다. 잘못된 결정은 치명적일 수 있습니다.
상관관계 보기
어떤 분야에 종사하든 연구 중인 두 변수의 산점도를 만들어 최소한 두 변수 사이의 관계를 시각적으로 조사하는 것이 도움이 됩니다.
예를 들어, 12명의 키와 몸무게를 보여주는 다음 데이터 세트가 있다고 가정해 보겠습니다.

원시 데이터만 보고 이 두 변수 사이의 관계를 이해하는 것은 다소 어렵습니다. 그러나 x축에 높이, y축에 무게를 갖는 산점도를 생성하면 관계를 이해하는 것이 훨씬 쉽습니다.

두 변수 사이에는 분명히 양의 관계가 있습니다.
포인트 클라우드를 생성하는 것은 다음 두 가지 이유에서 좋은 생각입니다.
(1) 산점도를 사용하면 상관관계에 영향을 미치는 이상값을 식별할 수 있습니다.
극단적인 이상값은 Pearson 상관 계수를 크게 변경할 수 있습니다. 변수 X 와 Y 의 Pearson 상관 계수가 r = 0.00 인 아래 예를 살펴보세요.

하지만 이제 데이터 세트에 이상값이 있다고 가정해 보겠습니다.

이 이상값으로 인해 상관 관계는 r = 0.878 이 됩니다. 이 단일 데이터 포인트는 상관 관계를 완전히 변경하고 실제로는 존재하지 않는 변수 X 와 Y 사이에 강력한 관계가 있는 것처럼 보이게 만듭니다.
(2) 산점도는 변수 간의 비선형 관계를 식별하는 데 도움이 될 수 있습니다.
피어슨 상관 계수는 단순히 두 변수가 선형적 으로 관련되어 있는지 여부를 알려줍니다. 그러나 Pearson 상관 계수가 두 변수가 상관 관계가 없다고 말해도 여전히 일종의 비선형 관계를 가질 수 있습니다. 이것이 산점도를 만드는 것이 유용한 또 다른 이유입니다.
예를 들어, 아래의 변수 X 와 Y 사이의 산점도를 살펴보세요. 여기서 상관 관계는 r = 0.00 입니다.

변수는 분명히 선형 관계가 없지만 비선형 관계가 있습니다 . y 값은 단순히 x 값의 제곱입니다. 상관계수만으로는 이 관계를 탐지할 수 없지만 산점도는 탐지할 수 있습니다.
결론
요약하자면:
- 일반적으로 0.75보다 큰 상관관계는 두 변수 사이의 “강한” 상관관계로 간주됩니다.
- 그러나 이 경험 법칙은 지역마다 다를 수 있습니다. 예를 들어, 기술 분야에 비해 의료 분야에서는 훨씬 약한 상관관계가 강한 것으로 간주될 수 있습니다. 강력한 것으로 간주되는 것이 무엇인지 결정하려면 도메인별 전문 지식을 활용하는 것이 가장 좋습니다.
- 두 변수 사이의 관계를 설명하기 위해 상관 관계를 사용할 때 산점도를 생성하면 데이터 집합의 이상값과 잠재적인 비선형 관계를 식별할 수 있는 것도 도움이 됩니다.
추가 리소스
“약한” 상관 관계로 간주되는 것은 무엇입니까?
상관 행렬 계산기
상관 행렬을 읽는 방법