회귀 모델에서 중요한 변수를 결정하는 방법
다중 선형 회귀 모델을 적용한 후 스스로에게 물어볼 주요 질문 중 하나는 어떤 변수가 중요한가입니다.
변수의 의미를 결정하는 데 사용해서는 안 되는 두 가지 방법이 있습니다.
1. 회귀계수의 값
특정 예측 변수에 대한 회귀 계수는 해당 예측 변수의 1단위 증가와 관련된 반응 변수의 평균 변화를 알려줍니다.
그러나 모델의 각 예측 변수는 일반적으로 서로 다른 규모로 측정됩니다. 따라서 어떤 변수가 가장 중요한지 결정하기 위해 회귀계수의 절대값을 비교하는 것은 의미가 없습니다.
2. 회귀계수의 p-값
회귀 계수의 p-값은 주어진 예측 변수가 응답 변수와 통계적으로 유의미한 연관성을 가지고 있는지 여부를 알려줄 수 있지만, 주어진 예측 변수가 실제 세계에서 실제로 유의한지 여부는 알 수 없습니다.
표본 크기가 크거나 변동성이 낮아서 P 값이 낮을 수도 있는데, 이는 주어진 예측 변수가 실제로 의미가 있는지 여부를 실제로 알려주지 않습니다.
그러나 변수의 의미를 결정하기 위해 사용해야 하는 두 가지 방법이 있습니다.
1. 표준화된 회귀계수
일반적으로 다중 선형 회귀를 수행할 때 모델 출력의 결과 회귀 계수는 표준화되지 않습니다 . 즉, 원시 데이터를 사용하여 가장 적합한 선을 찾습니다.
하지만 각 예측변수와 반응변수를 표준화한 후(원래 값에서 각 변수의 평균값을 뺀 후 변수의 표준편차로 나누는 방식) 회귀분석을 실행하면, 결과는 다음과 같다. 표준화된 회귀계수 .
모델의 각 변수를 표준화함으로써 각 변수는 동일한 규모로 측정됩니다. 따라서 어떤 변수가 반응 변수에 가장 큰 영향을 미치는지 이해하려면 결과에서 회귀 계수의 절대값을 비교하는 것이 좋습니다.
2. 주제별 전문성
p-값은 주어진 예측 변수와 반응 변수 사이에 통계적으로 유의미한 효과가 있는지 여부를 알려줄 수 있지만, 예측 변수가 실제로 관련이 있고 실제로 모델에 포함되어야 하는지 확인하려면 해당 분야의 전문 지식이 필요합니다.
다음 예에서는 실제로 회귀 모델에서 중요한 변수를 결정하는 방법을 보여줍니다.
예: 회귀 모델에서 중요한 변수를 결정하는 방법
12개 주택의 연령, 면적, 판매 가격에 대한 정보가 포함된 다음 데이터 세트가 있다고 가정합니다.
그런 다음 연령 과 면적을 예측 변수로 사용하고 가격을 응답 변수로 사용하여 다중 선형 회귀를 수행한다고 가정합니다.
우리는 다음과 같은 결과를 얻습니다:
이 표의 회귀 계수는 표준화되지 않았습니다 . 즉, 이 회귀 모델에 맞게 원시 데이터를 사용했음을 의미합니다.
언뜻 보기에 회귀표의 계수는 -409.833 이므로 예측 변수 평방 피트의 계수는 100.866 에 불과하므로 연령이 부동산 가격에 훨씬 더 큰 영향을 미치는 것 같습니다.
그러나 표준 오차는 평방피트보다 연령에 따라 훨씬 더 크기 때문에 해당 p-값이 실제로 연령에 비해 크고(p = 0.520) 평방피트에 비해 작습니다(p = 0.000).
회귀 계수의 차이가 극심한 이유는 두 변수에 대한 척도의 차이가 너무 크기 때문입니다.
- 연령 범위는 4세부터 44세까지입니다.
- 평방 피트 값의 범위는 1,200에서 2,800입니다.
대신 원시 데이터를 정규화한다고 가정합니다.
그런 다음 표준화된 데이터를 사용하여 다중 선형 회귀를 수행하면 다음과 같은 회귀 결과를 얻을 수 있습니다.
이 표의 회귀 계수는 표준화되었습니다 . 즉, 이 회귀 모델에 맞게 표준화된 데이터를 사용했음을 의미합니다.
표의 계수를 해석하는 방법은 다음과 같습니다.
- 평방피트가 일정하다고 가정할 때 연령이 1 표준편차 증가하면 주택 가격이 0.092 표준편차 감소합니다.
- 연령이 일정하다고 가정할 때 평방피트의 1 표준편차 증가는 주택 가격의 0.885 표준편차 증가와 관련이 있습니다.
이제 우리는 면적이 연령보다 주택 가격에 훨씬 더 큰 영향을 미친다는 것을 알 수 있습니다.
참고 : 각 예측 변수에 대한 p-값은 이전 회귀 모델의 p-값과 정확히 동일합니다.
어떤 최종 모델을 사용할지 결정할 때 이제 우리는 주택 가격을 예측하는 데 연식 보다 면적이 훨씬 더 중요하다는 것을 알고 있습니다.
궁극적으로 우리는 주택 및 부동산 가격에 대한 기존 지식을 기반으로 최종 모델에 포함할 변수를 결정하기 위해 주제 전문 지식을 활용해야 합니다.
추가 리소스
다음 튜토리얼에서는 회귀 모델에 대한 추가 정보를 제공합니다.