회귀 모델에서 중요한 변수를 결정하는 방법


다중 선형 회귀 모델을 적용한 후 스스로에게 물어볼 주요 질문 중 하나는 어떤 변수가 중요한가입니다.

변수의 의미를 결정하는 데 사용해서는 안 되는 두 가지 방법이 있습니다.

1. 회귀계수의 값

특정 예측 변수에 대한 회귀 계수는 해당 예측 변수의 1단위 증가와 관련된 반응 변수의 평균 변화를 알려줍니다.

그러나 모델의 각 예측 변수는 일반적으로 서로 다른 규모로 측정됩니다. 따라서 어떤 변수가 가장 중요한지 결정하기 위해 회귀계수의 절대값을 비교하는 것은 의미가 없습니다.

2. 회귀계수의 p-값

회귀 계수의 p-값은 주어진 예측 변수가 응답 변수와 통계적으로 유의미한 연관성을 가지고 있는지 여부를 알려줄 수 있지만, 주어진 예측 변수가 실제 세계에서 실제로 유의한지 여부는 알 수 없습니다.

표본 크기가 크거나 변동성이 낮아서 P 값이 낮을 수도 있는데, 이는 주어진 예측 변수가 실제로 의미가 있는지 여부를 실제로 알려주지 않습니다.

그러나 변수의 의미를 결정하기 위해 사용해야 하는 두 가지 방법이 있습니다.

1. 표준화된 회귀계수

일반적으로 다중 선형 회귀를 수행할 때 모델 출력의 결과 회귀 계수는 표준화되지 않습니다 . 즉, 원시 데이터를 사용하여 가장 적합한 선을 찾습니다.

하지만 각 예측변수와 반응변수를 표준화한 후(원래 값에서 각 변수의 평균값을 뺀 후 변수의 표준편차로 나누는 방식) 회귀분석을 실행하면, 결과는 다음과 같다. 표준화된 회귀계수 .

모델의 각 변수를 표준화함으로써 각 변수는 동일한 규모로 측정됩니다. 따라서 어떤 변수가 반응 변수에 가장 큰 영향을 미치는지 이해하려면 결과에서 회귀 계수의 절대값을 비교하는 것이 좋습니다.

2. 주제별 전문성

p-값은 주어진 예측 변수와 반응 변수 사이에 통계적으로 유의미한 효과가 있는지 여부를 알려줄 수 있지만, 예측 변수가 실제로 관련이 있고 실제로 모델에 포함되어야 하는지 확인하려면 해당 분야의 전문 지식이 필요합니다.

다음 예에서는 실제로 회귀 모델에서 중요한 변수를 결정하는 방법을 보여줍니다.

예: 회귀 모델에서 중요한 변수를 결정하는 방법

12개 주택의 연령, 면적, 판매 가격에 대한 정보가 포함된 다음 데이터 세트가 있다고 가정합니다.

그런 다음 연령면적을 예측 변수로 사용하고 가격을 응답 변수로 사용하여 다중 선형 회귀를 수행한다고 가정합니다.

우리는 다음과 같은 결과를 얻습니다:

표준화되지 않은 회귀 계수의 예

이 표의 회귀 계수는 표준화되지 않았습니다 . 즉, 이 회귀 모델에 맞게 원시 데이터를 사용했음을 의미합니다.

언뜻 보기에 회귀표의 계수는 -409.833 이므로 예측 변수 평방 피트의 계수는 100.866 에 불과하므로 연령이 부동산 가격에 훨씬 더 큰 영향을 미치는 것 같습니다.

그러나 표준 오차는 평방피트보다 연령에 따라 훨씬 더 크기 때문에 해당 p-값이 실제로 연령에 비해 크고(p = 0.520) 평방피트에 비해 작습니다(p = 0.000).

회귀 계수의 차이가 극심한 이유는 두 변수에 대한 척도의 차이가 너무 크기 때문입니다.

  • 연령 범위는 4세부터 44세까지입니다.
  • 평방 피트 값의 범위는 1,200에서 2,800입니다.

대신 원시 데이터를 정규화한다고 가정합니다.

Excel에서 데이터 표준화

그런 다음 표준화된 데이터를 사용하여 다중 선형 회귀를 수행하면 다음과 같은 회귀 결과를 얻을 수 있습니다.

표준화된 회귀계수

이 표의 회귀 계수는 표준화되었습니다 . 즉, 이 회귀 모델에 맞게 표준화된 데이터를 사용했음을 의미합니다.

표의 계수를 해석하는 방법은 다음과 같습니다.

  • 평방피트가 일정하다고 가정할 때 연령이 1 표준편차 증가하면 주택 가격이 0.092 표준편차 감소합니다.
  • 연령이 일정하다고 가정할 때 평방피트의 1 표준편차 증가는 주택 가격의 0.885 표준편차 증가와 관련이 있습니다.

이제 우리는 면적이 연령보다 주택 가격에 훨씬 더 큰 영향을 미친다는 것을 알 수 있습니다.

참고 : 각 예측 변수에 대한 p-값은 이전 회귀 모델의 p-값과 정확히 동일합니다.

어떤 최종 모델을 사용할지 결정할 때 이제 우리는 주택 가격을 예측하는 데 연식 보다 면적이 훨씬 더 중요하다는 것을 알고 있습니다.

궁극적으로 우리는 주택 및 부동산 가격에 대한 기존 지식을 기반으로 최종 모델에 포함할 변수를 결정하기 위해 주제 전문 지식을 활용해야 합니다.

추가 리소스

다음 튜토리얼에서는 회귀 모델에 대한 추가 정보를 제공합니다.

회귀표를 읽고 해석하는 방법
회귀 계수를 해석하는 방법
선형 회귀에서 P 값을 해석하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다