로지스틱 회귀 모델의 c 통계를 해석하는 방법
이 튜토리얼에서는 로지스틱 회귀 모델의 C 통계를 해석하는 방법에 대한 간단한 설명을 제공합니다.
로지스틱 회귀란 무엇입니까?
로지스틱 회귀는 응답 변수가 이진일 때 회귀 모델을 맞추는 데 사용하는 통계 방법입니다. 다음은 로지스틱 회귀를 사용하는 몇 가지 예입니다.
- 우리는 운동, 식이요법 및 체중이 심장마비 발생 가능성에 어떤 영향을 미치는지 알고 싶습니다. 반응 변수는 심장마비 이며 두 가지 잠재적인 결과가 있습니다. 즉, 심장마비가 발생하거나 발생하지 않습니다.
- 우리는 GPA, ACT 점수, AP 과정 수강 횟수가 특정 대학에 합격할 가능성에 어떤 영향을 미치는지 알고 싶습니다. 반응 변수는 수용 이며 수용 또는 수용되지 않음이라는 두 가지 잠재적 결과를 갖습니다.
- 단어 수와 이메일 제목이 이메일이 스팸일 가능성에 영향을 미치는지 알고 싶습니다. 응답 변수는 스팸 이며 스팸 또는 스팸 아님이라는 두 가지 잠재적 결과가 있습니다.
예측 변수는 숫자형이거나 범주형일 수 있습니다. 중요한 것은 응답 변수가 이진수라는 것입니다. 이 경우 로지스틱 회귀는 예측 변수와 반응 변수 간의 관계를 설명하는 데 사용하기에 적합한 모델입니다.
로지스틱 회귀 모델의 적절성을 평가하는 방법
로지스틱 회귀 모델을 데이터 세트에 적용한 후에는 모델이 데이터에 얼마나 잘 맞는지 관심을 갖는 경우가 많습니다. 특히 우리는 긍정적인 결과와 부정적인 결과를 정확하게 예측하는 모델의 능력에 관심이 있습니다.
민감도는 결과가 실제로 긍정적일 때 모델이 관찰에 대한 긍정적인 결과를 예측할 확률을 나타냅니다.
특이성은 결과가 실제로 부정적일 때 모델이 관찰에 대해 부정적인 결과를 예측할 확률을 나타냅니다.
로지스틱 회귀 모델은 민감도와 특이도가 100%인 경우 관측값을 분류하는 데 적합하지만 실제로는 이런 일이 거의 발생하지 않습니다.
로지스틱 회귀 모델을 적용한 후에는 예측 변수의 값을 기반으로 주어진 관찰이 긍정적인 결과를 얻을 확률을 계산하는 데 사용할 수 있습니다.
관찰이 긍정적으로 분류되어야 하는지 여부를 결정하기 위해 임계값보다 높은 조정 확률을 가진 관찰은 긍정적으로 분류되고 임계값 아래의 조정 확률을 가진 모든 관찰은 부정적으로 분류되도록 임계값을 선택할 수 있습니다. .
예를 들어 임계값을 0.5로 선택한다고 가정해 보겠습니다. 즉, 조정 확률이 0.5보다 큰 관측치는 긍정적인 결과를 가지며, 조정 확률이 0.5 이하인 관측치는 음의 결과를 갖게 됩니다.
ROC 곡선 그리기
모델의 민감도 대 특이성을 시각화하는 가장 일반적인 방법 중 하나는 민감도 값과 특이도 1을 임계값으로 표시하는 ROC (Receiver Operating Characteristic) 곡선을 그리는 것입니다. 포인트는 0에서 1로 이동합니다.
민감도와 특이도가 높은 모델은 플롯의 왼쪽 상단 모서리에 맞는 ROC 곡선을 갖습니다. 민감도와 특이도가 낮은 모델은 대각선 45도에 가까운 곡선을 갖습니다.
AUC (곡선 아래 영역) 는 긍정적인 결과와 부정적인 결과를 구별하는 모델의 능력에 대한 아이디어를 제공합니다. AUC의 범위는 0에서 1까지입니다. AUC가 높을수록 모델이 결과를 올바르게 분류하는 능력이 더 좋습니다.
이는 플롯의 왼쪽 상단 모서리를 감싸는 ROC 곡선이 있는 모델이 곡선 아래 영역이 높으므로 결과를 올바르게 분류하는 데 적합한 모델이 될 것임을 의미합니다. 반대로, 45도 대각선을 껴안는 ROC 곡선이 있는 모델은 곡선 아래 면적이 낮으므로 결과를 잘 분류하지 못하는 모델이 됩니다.
C 통계 이해
일치 통계라고도 알려진 c 통계 는 AUC(곡선 아래 면적)와 동일하며 다음과 같이 해석됩니다.
- 0.5보다 작은 값은 불량한 모델을 나타냅니다.
- 0.5 값은 모델이 우연보다 결과를 분류하는 데 더 나을 것이 없음을 나타냅니다.
- 값이 1에 가까울수록 모델이 결과를 더 정확하게 분류할 수 있다는 의미입니다.
- 값이 1이면 모델이 결과를 분류하는 데 완벽하다는 의미입니다.
따라서 C 통계는 모델이 결과를 올바르게 분류하는 데 얼마나 효과적인지에 대한 아이디어를 제공합니다.
임상 환경에서는 가능한 모든 개인 쌍, 즉 긍정적인 결과를 경험한 개인과 부정적인 결과를 경험한 개인을 취하여 C 통계량을 계산하는 것이 가능합니다. 그러면 c 통계량은 긍정적인 결과를 경험한 개인이 긍정적인 결과를 경험하지 않은 개인보다 결과를 경험할 확률이 더 높은 쌍의 비율로 계산될 수 있습니다.
예를 들어, 심장마비 가능성을 예측하기 위해 연령 , 혈압 과 같은 예측 변수를 사용하여 로지스틱 회귀 모델을 적합하다고 가정해 보겠습니다.
모델의 c-통계량을 찾기 위해 우리는 심장 마비가 있는 개인과 심장 마비가 없는 개인으로 구성된 가능한 모든 개인 쌍을 식별할 수 있었습니다. 그러면 c 통계량은 심장마비를 겪은 개인이 실제로 심장마비를 겪지 않은 개인에 비해 심장마비를 겪을 확률이 더 높은 예측 쌍의 비율로 계산될 수 있습니다. 심장마비.
결론
이 기사에서 우리는 다음을 배웠습니다.
- 로지스틱 회귀는 응답 변수가 이진일 때 회귀 모델을 맞추는 데 사용하는 통계 방법입니다.
- 로지스틱 회귀 모델의 적합도를 평가하기 위해 민감도 와 특이도를 살펴보면 모델이 결과를 얼마나 잘 분류할 수 있는지 알 수 있습니다.
- 민감도와 특이도를 시각화하기 위해 ROC 곡선을 만들 수 있습니다.
- AUC(곡선 아래 영역)는 모델이 결과를 얼마나 잘 분류할 수 있는지를 나타냅니다. ROC 곡선이 플롯의 왼쪽 상단 모서리에 닿으면 모델이 결과를 성공적으로 분류하고 있음을 나타냅니다.
- c 통계량 은 AUC(곡선 아래 면적)와 동일하며 가능한 모든 개인 쌍, 즉 긍정적인 결과를 경험한 개인과 부정적인 결과를 경험한 개인을 취하여 계산할 수도 있습니다. 그런 다음 c 통계량은 긍정적인 결과를 경험한 개인이 긍정적인 결과를 경험하지 않은 개인보다 결과를 경험할 확률이 더 높은 예측 쌍의 비율입니다.
- C 통계량 이 1에 가까울수록 모델이 결과를 더 정확하게 분류할 수 있습니다.