절약형 모델이란 무엇입니까?
간결한 모델은 가능한 적은 설명 변수를 사용하여 원하는 수준의 적합도를 달성하는 모델입니다.
이러한 유형의 모델 뒤에 있는 추론은 가장 간단한 설명이 아마도 정확할 것이라고 말하는 오캄의 면도날 (때때로 “절약 원칙”이라고도 함) 아이디어에서 비롯됩니다.
통계에 적용하면 매개변수가 적지만 만족스러운 수준의 적합도를 달성하는 모델이 매개변수가 많고 약간 더 높은 수준의 적합도를 달성하는 모델보다 선호되어야 합니다.
여기에는 두 가지 이유가 있습니다.
1. 인색한 모델은 해석하고 이해하기가 더 쉽습니다. 매개변수가 적은 모델은 이해하고 설명하기가 더 쉽습니다.
2. 인색한 모델은 예측 능력이 더 뛰어난 경향이 있습니다. 매개변수가 적은 모델은 새 데이터에 적용할 때 더 나은 성능을 발휘하는 경향이 있습니다.
이러한 아이디어를 설명하기 위해 다음 두 가지 예를 고려하십시오.
예시 1: 절약형 모델 = 쉬운 해석
부동산 가격을 예측하기 위해 부동산 관련 설명 변수 세트를 사용하여 모델을 구축한다고 가정해 보겠습니다. 조정된 R-제곱을 사용하는 다음 두 모델을 고려하십시오.
모델 1:
- 방정식: 주택 가격 = 8,830 + 81*(제곱피트)
- 조정된 R2 : 0.7734
모델 2:
- 방정식: 주택 가격 = 8,921 + 77*(제곱피트) + 7*(제곱피트) 2 – 9*(연령) + 600*(침실) + 38*(욕실)
- 조정된 R2 : 0.7823
첫 번째 모델에는 단 하나의 설명 변수와 0.7734의 수정된 R2가 있는 반면, 두 번째 모델에는 수정된 R2 가 약간 더 높은 5개의 설명 변수가 있습니다.
절약의 원칙에 따라 각 모델은 주택 가격의 변동을 설명하는 능력이 거의 동일하지만 첫 번째 모델이 이해하고 설명하기가 훨씬 쉽기 때문에 첫 번째 모델을 사용하는 것을 선호합니다.
예를 들어 첫 번째 모델에서는 주택 면적이 1단위 증가하면 평균 주택 가격이 81달러 증가한다는 것을 알 수 있습니다. 이해하고 설명하는 것은 간단합니다.
그러나 두 번째 예에서는 계수 추정값을 해석하기가 훨씬 더 어렵습니다. 예를 들어, 집의 면적, 집의 연식, 욕실 개수가 일정하게 유지된다고 가정할 때 집에 방이 하나 더 있으면 평균 주택 가격이 $600 상승합니다. 이해하고 설명하는 것이 훨씬 더 어렵습니다.
예 2: 절약형 모델 = 더 나은 예측
또한 간결한 모델은 원래 데이터 세트에 과적합될 가능성이 적기 때문에 새 데이터 세트에 대해 더 정확한 예측을 하는 경향이 있습니다.
일반적으로 더 많은 매개변수를 가진 모델은 더 적은 매개변수를 가진 모델보다 더 정확한 피팅과 더 높은 R 2 값을 생성합니다. 불행하게도 모델에 너무 많은 매개변수를 포함하면 모델이 설명 변수 간의 실제 기본 관계보다는 데이터의 노이즈(또는 “임의성”)에 맞춰 조정될 수 있습니다. 그리고 반응변수.
즉, 매개변수가 많은 매우 복잡한 모델은 매개변수가 적은 단순한 모델에 비해 이전에 본 적이 없는 새로운 데이터세트에서 성능이 저하될 가능성이 높습니다.
절약형 모델을 선택하는 방법
모델 선택 주제를 다루는 전체 과정이 있을 수 있지만 본질적으로 절약형 모델을 선택한다는 것은 측정항목에 따라 가장 잘 수행되는 모델을 선택한다는 의미입니다.
훈련 데이터세트의 성능 과 매개변수 수를 기반으로 모델을 평가하는 데 일반적으로 사용되는 측정항목은 다음과 같습니다.
1. 아카이케 정보 기준(AIC)
모델의 AIC는 다음과 같이 계산할 수 있습니다.
AIC = -2/n * LL + 2 * k/n
금:
- n: 훈련 데이터 세트의 관측치 수입니다.
- LL: 훈련 데이터세트에 대한 모델의 로그 가능성.
- k: 모델의 매개변수 수입니다.
이 방법을 사용하면 각 모델의 AIC를 계산한 후 AIC 값이 가장 낮은 모델을 최상의 모델로 선택할 수 있습니다.
이 접근 방식은 다음 방법인 BIC에 비해 더 복잡한 모델을 선호하는 경향이 있습니다.
2. 베이지안 정보 기준(BIC)
모델의 BIC는 다음과 같이 계산할 수 있습니다.
BIC = -2 * LL + log(n) * k
금:
- n: 훈련 데이터 세트의 관측치 수입니다.
- log: 자연 로그(밑 e)
- LL: 훈련 데이터세트에 대한 모델의 로그 가능성.
- k: 모델의 매개변수 수입니다.
이 방법을 사용하면 각 모델의 BIC를 계산한 후 BIC 값이 가장 낮은 모델을 가장 좋은 모델로 선택할 수 있습니다.
이 접근 방식은 AIC 방법에 비해 매개변수가 더 적은 모델을 선호하는 경향이 있습니다.
3. 최소 설명 길이(MDL)
MDL은 정보 이론 분야의 모델을 평가하는 방법입니다. 다음과 같이 계산할 수 있습니다.
MDL = L(h) + L(D | h)
금:
- h: 모델입니다.
- D: 모델이 예측한 것입니다.
- L(h): 모델을 표현하는데 필요한 비트 수.
- L(D | h): 훈련 데이터에 대한 모델의 예측을 표현하는 데 필요한 비트 수입니다.
이 방법을 사용하면 각 모델의 MDL을 계산한 후 MDL 값이 가장 낮은 모델을 최상의 모델로 선택할 수 있습니다.
작업 중인 문제의 유형에 따라 절약형 모델을 선택하는 데 다른 방법보다 AIC, BIC 또는 MDL 방법 중 하나가 선호될 수 있습니다.