Stata에서 roc 곡선을 만들고 해석하는 방법


로지스틱 회귀는 응답 변수가 이진일 때 회귀 모델을 맞추는 데 사용하는 통계 방법입니다. 로지스틱 회귀 모델이 데이터 세트에 얼마나 잘 맞는지 평가하기 위해 다음 두 가지 측정항목을 살펴볼 수 있습니다.

  • 민감도: 결과가 실제로 긍정적일 때 모델이 관찰에 대한 긍정적인 결과를 예측할 확률입니다.
  • 특이성: 결과가 실제로 부정적일 때 모델이 관찰에 대해 부정적인 결과를 예측할 확률입니다.

이 두 측정항목을 시각화하는 간단한 방법은 로지스틱 회귀 모델의 민감도와 특이성을 표시하는 그래프인 ROC 곡선을 만드는 것입니다.

이 튜토리얼에서는 Stata에서 ROC 곡선을 생성하고 해석하는 방법을 설명합니다.

예: Stata의 ROC 곡선

이 예에서는 189명의 산모에 대한 다음 변수가 포함된 lbw 라는 데이터 세트를 사용합니다.

  • 저체중 – 아기의 출생 시 저체중 여부. 1 = 예, 0 = 아니요.
  • 나이 – 어머니의 나이.
  • 연기 – 산모가 임신 중에 담배를 피웠는지 여부. 1 = 예, 0 = 아니요.

설명 변수로 연령과 흡연을 사용하고 응답 변수로 저체중 출생을 사용하여 데이터에 로지스틱 회귀 모델을 적용합니다. 다음으로 모델이 데이터에 얼마나 잘 맞는지 분석하기 위해 ROC 곡선을 만듭니다.

1단계: 데이터를 로드하고 표시합니다.

다음 명령을 사용하여 데이터를 로드합니다.

https://www.stata-press.com/data/r13/lbw를 사용하세요.

다음 명령을 사용하여 데이터세트를 빠르게 이해하세요.

요약

Stata의 저체중 출생 데이터 세트

데이터 세트에는 11개의 다양한 변수가 있지만 우리가 관심을 갖는 세 가지 변수는 낮은 수준, 연령 및 흡연뿐입니다.

2단계: 로지스틱 회귀 모델을 피팅합니다.

로지스틱 회귀 모델을 맞추려면 다음 명령을 사용하십시오.

저연령 연기 로짓

Stata의 로지스틱 회귀 출력

3단계: ROC 곡선을 만듭니다.

다음 명령을 사용하여 모델에 대한 ROC 곡선을 만들 수 있습니다.

lroc

Stata의 ROC 곡선

4단계: ROC 곡선을 해석합니다.

로지스틱 회귀 모델을 적용하면 예측 변수의 값을 기반으로 주어진 관찰이 긍정적인 결과를 얻을 확률을 계산하는 데 사용할 수 있습니다.

관찰이 긍정적으로 분류되어야 하는지 여부를 결정하기 위해 임계값보다 높은 조정 확률을 가진 관찰은 긍정적으로 분류되고 임계값 아래의 조정 확률을 가진 모든 관찰은 부정적으로 분류되도록 임계값을 선택할 수 있습니다. .

예를 들어 임계값을 0.5로 선택한다고 가정해 보겠습니다. 즉, 조정 확률이 0.5보다 큰 관측치는 긍정적인 결과를 가지며, 조정 확률이 0.5 이하인 관측치는 음의 결과를 갖게 됩니다.

ROC 곡선은 임계값이 0에서 1로 변경됨에 따라 특이도 1에 대한 민감도 값을 보여줍니다. 민감도와 특이도가 높은 모델은 플롯의 왼쪽 상단 모서리를 감싸는 ROC 곡선을 갖습니다. 민감도와 특이도가 낮은 모델은 대각선 45도에 가까운 곡선을 갖습니다.

AUC (곡선 아래 영역) 는 긍정적인 결과와 부정적인 결과를 구별하는 모델의 능력에 대한 아이디어를 제공합니다. AUC의 범위는 0에서 1까지입니다. AUC가 높을수록 모델이 결과를 올바르게 분류하는 능력이 더 좋습니다. 이 예에서는 AUC가 0.6111 임을 확인할 수 있습니다.

AUC를 사용하여 둘 이상의 모델의 성능을 비교할 수 있습니다. AUC가 가장 높은 모델이 가장 좋은 성능을 발휘합니다.

추가 리소스

Stata에서 로지스틱 회귀를 수행하는 방법
로지스틱 회귀 모델의 ROC 곡선과 AUC를 해석하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다