"약함"으로 간주되는 것 상관관계?


통계에서 우리는 종종 두 변수가 서로 어떻게 연관되어 있는지 이해하려고 합니다. 예를 들어 다음 사항을 알고 싶을 수 있습니다.

  • 학생이 공부하는 시간과 시험에서 받는 성적 사이에는 어떤 관계가 있나요?
  • 푸드트럭에서 판매하는 아이스크림 개수와 외부 온도 사이에는 어떤 관계가 있나요?
  • 광고에 지출된 금액과 특정 비즈니스에서 얻은 총 수익 사이에는 어떤 관계가 있나요?

각 시나리오에서 우리는 두 변수 간의 관계를 이해하려고 합니다.

두 변수 사이의 관계를 정량화하는 가장 일반적인 방법 중 하나는 두 변수 사이의 선형 연관성을 측정하는 Pearson 상관 계수를 사용하는 것입니다.

항상 -1과 1 사이의 값을 취합니다. 여기서:

  • -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다.
  • 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다.
  • 1은 두 변수 사이의 완벽한 양의 선형 상관 관계를 나타냅니다.

종종 r 로 표시되는 이 숫자는 두 변수 간의 관계의 강도를 이해하는 데 도움이 됩니다. r이 0에 가까울수록 두 변수 사이의 관계가 약해집니다 .

두 변수가 약한 양 상관관계 또는 약한 음의 상관관계를 가질 수 있다는 점에 유의하는 것이 중요합니다.

약한 양의 상관관계: 한 변수가 증가하면 다른 변수도 증가하는 경향이 있지만 그 정도는 약하거나 신뢰할 수 없습니다.

약한 양의 상관관계의 예

낮은 음의 상관관계: 한 변수가 증가하면 다른 변수는 감소하는 경향이 있지만 그 정도는 약하거나 신뢰할 수 없습니다.

약한 음의 상관관계의 예

다음 표는 r 값을 기준으로 두 변수 간의 관계 강도를 해석하는 경험적 법칙을 보여줍니다.

r 의 절대값 관계의 힘
r < 0.25 관계 없음
0.25 < r < 0.5 약한 관계
0.5 < r < 0.75 적당한 관계
r > 0.75 강한 관계

r 의 절대값이 0.25에서 0.5 사이이면 두 변수 사이의 상관관계가 낮은 것으로 간주됩니다.

그러나 “약한” 상관 관계의 정의는 분야마다 다를 수 있습니다.

의료

의료 분야에서는 ‘약한’ 관계에 대한 정의가 훨씬 낮은 경우가 많습니다. 특정 약물 복용과 심장마비 감소 사이의 관계가 r = 0.2 라면 다른 분야에서는 ‘관계 없음’으로 간주될 수 있지만, 의학에서는 심장마비 위험을 줄이기 위해 약을 복용할 가치가 있을 만큼 유의미합니다. . 심장 마비가 발생했습니다.

인적 자원

인적 자원과 같은 분야에서는 낮은 상관 관계가 더 자주 사용됩니다. 예를 들어, 대학 GPA와 직업 성과 사이의 상관관계는 대략 r = 0.16 인 것으로 나타났습니다. 이는 꽤 낮은 수치이지만 회사가 최소한 인터뷰 과정에서 이를 고려해야 할 만큼 중요합니다.

기술

기술 분야에서는 변수 간의 상관관계가 “낮음”으로 간주되기 위해 훨씬 높아야 할 수도 있습니다. 예를 들어, 회사가 자율 주행 자동차를 만들고 자동차의 방향 전환 결정과 사고 회피 확률 사이의 상관 관계가 r = 0.95 인 경우 이는 “약한” 상관 관계로 간주될 수 있으며 자동차가 회전하기에는 너무 약할 수 있습니다. 잘못된 결정은 치명적일 수 있으므로 안전한 것으로 간주하십시오.

산점도를 사용하여 상관 관계 시각화

두 변수 사이의 상관계수를 계산할 때 산점도를 만들어 상관관계를 시각화하는 것도 유용합니다.

특히 포인트 클라우드는 두 가지 장점을 제공합니다.

1. 산점도는 상관 계수에 영향을 미치는 이상값을 식별하는 데 도움이 될 수 있습니다.

극단적인 특이치는 상관 계수에 큰 영향을 미칠 수 있습니다. 변수 XY 의 Pearson 상관 계수가 r = 0.91 인 아래 예를 살펴보세요.

이제 첫 번째 데이터 포인트를 훨씬 더 크게 변경한다고 상상해 보세요. 상관계수는 갑자기 r = 0.29 가 됩니다.

이 단일 데이터 포인트는 상관 계수를 강한 양의 관계에서 약한 양의 관계로 변경합니다.

(2) 산점도는 변수 간의 비선형 관계를 식별하는 데 도움이 될 수 있습니다.

피어슨 상관 계수는 단순히 두 변수가 선형적 으로 관련되어 있는지 여부를 알려줍니다. 그러나 Pearson 상관 계수가 두 변수가 상관 관계가 없다고 말해도 여전히 일종의 비선형 관계를 가질 수 있습니다.

예를 들어, 아래의 변수 XY 사이의 산점도를 살펴보세요. 여기서 상관 관계는 r = 0.00 입니다.

변수는 분명히 선형 관계가 없지만 비선형 관계가 있습니다 . y 값은 단순히 x 값의 제곱입니다.

상관계수만으로는 이 관계를 탐지할 수 없지만 산점도는 탐지할 수 있습니다.

결론

요약하자면:

1. 일반적으로 상관계수 0.25와 0.5 사이는 두 변수 사이의 “약한” 상관관계로 간주됩니다.

2. 이 경험 법칙은 지역마다 다를 수 있습니다. 예를 들어, 기술 분야에 비해 의료 분야에서는 훨씬 낮은 상관관계가 약한 것으로 간주될 수 있습니다. 상관관계가 낮은 것으로 간주되는 항목을 결정하려면 해당 분야의 전문 지식을 활용하십시오.

3. 상관 계수를 사용하여 두 변수 간의 관계를 설명하는 경우 데이터 세트의 이상값과 잠재적인 비선형 관계를 식별할 수 있도록 분산형 차트를 만드는 것도 도움이 됩니다.

추가 리소스

“강한” 상관관계로 간주되는 것은 무엇입니까?
상관 행렬 계산기
상관관계 대 협회 : 차이점은 무엇입니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다