Excel에서 roc 곡선을 만드는 방법(단계별)
로지스틱 회귀는 응답 변수가 이진일 때 회귀 모델을 맞추는 데 사용하는 통계 방법입니다. 로지스틱 회귀 모델이 데이터 세트에 얼마나 잘 맞는지 평가하기 위해 다음 두 가지 측정항목을 살펴볼 수 있습니다.
- 민감도: 결과가 실제로 긍정적일 때 모델이 관찰에 대한 긍정적인 결과를 예측할 확률입니다. 이를 ‘진양성률’이라고도 합니다.
- 특이성: 결과가 실제로 부정적일 때 모델이 관찰에 대해 부정적인 결과를 예측할 확률입니다. 이를 ‘진음성률’이라고도 합니다.
이 두 가지 측정값을 시각화하는 한 가지 방법은 “수신기 작동 특성” 곡선을 나타내는 ROC 곡선을 만드는 것입니다. 로지스틱 회귀모델의 민감도와 특이도를 표시한 그래프입니다.
다음 단계별 예에서는 Excel에서 ROC 곡선을 만들고 해석하는 방법을 보여줍니다.
1단계: 데이터 입력
원시 데이터를 입력하는 것부터 시작해 보겠습니다.
2단계: 누적 데이터 계산
그런 다음 다음 공식을 사용하여 합격 및 불합격 카테고리의 누적 값을 계산해 보겠습니다.
- 누적 성공 값: =SUM($B$3:B3)
- 누적 실패 값: =SUM($C$3:C3)
그런 다음 이 수식을 D열과 E열의 각 셀에 복사하여 붙여넣습니다.
3단계: 거짓양성률과 참양성률 계산
다음으로, 다음 공식을 사용하여 거짓양성률(FPR), 참양성률(TPR) 및 곡선 아래 면적(AUC)을 계산합니다.
- FPR: =1-D3/$D$14
- TPR: =1-E3/$E$14
- ASC: =(F3-F4)*G3
그런 다음 이 수식을 F, G, H 열의 각 셀에 복사하여 붙여넣습니다.
4단계: ROC 곡선 만들기
ROC 곡선을 만들기 위해 F3:G14 범위의 각 값을 강조 표시합니다.
다음으로 상단 리본에 있는 삽입 탭을 클릭한 후 분산형(X, Y) 삽입을 클릭하여 다음 경로를 만듭니다.
5단계: AUC 계산
곡선이 플롯의 왼쪽 상단 모서리에 가까울수록 모델이 데이터를 범주로 더 잘 분류할 수 있습니다.
위 그래프에서 볼 수 있듯이 이 로지스틱 회귀 모델은 데이터를 카테고리로 분류하는 데 매우 효과적입니다.
이를 정량화하기 위해 곡선 아래에 있는 플롯의 양을 알려주는 AUC(곡선 아래 영역)를 계산할 수 있습니다.
AUC가 1에 가까울수록 모델이 더 좋습니다. AUC가 0.5인 모델은 무작위 분류를 수행하는 모델보다 나을 것이 없습니다.
곡선의 AUC를 계산하려면 H열의 모든 값을 간단히 더하면 됩니다.
AUC는 0.802662 로 밝혀졌습니다. 이 값은 상당히 높으며, 이는 모델이 데이터를 “합격” 및 “실패” 범주로 잘 분류함을 나타냅니다.
추가 리소스
다음 자습서에서는 Excel에서 다른 일반적인 플롯을 만드는 방법을 설명합니다.
Excel에서 CDF를 그리는 방법
Excel에서 생존 곡선을 만드는 방법
Excel에서 통계적 프로세스 관리 차트를 만드는 방법