좋은 r 제곱 값이란 무엇입니까?
R-제곱은 선형 회귀 모델이 데이터 세트에 얼마나 잘 “적합”되는지를 측정합니다. 일반적으로 결정 계수 라고도 불리는 R-제곱은 예측 변수로 설명할 수 있는 반응 변수의 분산 비율입니다.
R-제곱 값의 범위는 0에서 1까지입니다. 값 0은 반응 변수가 예측 변수로 전혀 설명될 수 없음을 나타냅니다. 값 1은 반응 변수가 예측 변수에 의해 오류 없이 완벽하게 설명될 수 있음을 나타냅니다.
실제로 R-제곱에 대해 0 또는 1 값을 볼 수 없을 것입니다. 대신 0과 1 사이의 값을 만날 가능성이 높습니다.
예를 들어, 30개 도시의 인구 규모와 꽃집 수를 포함하는 데이터세트가 있다고 가정해 보겠습니다. 인구 규모를 예측 변수로 사용하고 꽃집을 반응 변수로 사용하여 단순 선형 회귀 모델을 데이터 세트에 맞춥니다. 회귀 결과를 보면 R 2 = 0.2라는 것을 알 수 있습니다. 이는 꽃집 수의 변동 중 20%가 인구 규모에 따라 설명될 수 있음을 나타냅니다.
이것은 우리에게 중요한 질문을 제기합니다: 이것이 R-제곱에 대한 “좋은” 값입니까?
이 질문에 대한 답은 회귀 모델의 목표에 따라 다릅니다. 알아야 할 사항:
1. 예측 변수와 반응 변수 간의 관계를 설명하시겠습니까?
금
2. 반응변수를 예측하시겠습니까?
목표에 따라 “R 제곱에 적합한 값은 무엇입니까?”라는 질문에 대한 답변이 제공됩니다. “라고 다를 것이다.
예측 변수와 반응 변수 간의 관계를 설명합니다.
회귀 모델의 기본 목표가 예측 변수와 응답 변수 간의 관계를 설명하는 것이라면 R-제곱은 사실상 관련이 없습니다.
예를 들어, 위의 회귀 예제에서 예측 인구 규모 계수가 0.005이고 통계적으로 유의하다는 것을 확인했다고 가정해 보겠습니다. 이는 인구가 1명 증가하면 특정 도시의 꽃집 수가 평균 0.005명 증가한다는 것을 의미합니다. 또한 인구 규모는 도시의 꽃집 수를 나타내는 통계적으로 중요한 지표입니다.
이 회귀 모델의 R 제곱 값이 0.2인지 0.9인지는 이 해석을 변경하지 않습니다. 인구 규모와 꽃집 수 사이의 관계 에만 관심이 있으므로 모델의 R 제곱 값에 대해 너무 걱정할 필요가 없습니다.
반응 변수 예측
주요 목표가 예측 변수를 사용하여 반응 변수의 값을 정확하게 예측하는 것이라면 R-제곱이 중요합니다.
일반적으로 R-제곱 값이 클수록 예측 변수가 반응 변수의 값을 더 정확하게 예측할 수 있습니다.
R 제곱 값에 필요한 값은 필요한 정밀도에 따라 다릅니다. 예를 들어 과학 연구에서는 회귀 모델이 신뢰할 수 있는 것으로 간주되려면 R-제곱이 0.95보다 커야 할 수도 있습니다. 다른 영역에서는 데이터 세트에 극심한 변동성이 있는 경우 R 제곱이 0.3이면 충분할 수 있습니다.
“좋은” R 제곱 값으로 간주되는 것이 무엇인지 알려면 특정 연구 분야에서 일반적으로 허용되는 R 제곱 값이 무엇인지 탐색해야 합니다. 클라이언트나 회사에 대해 회귀 분석을 수행하는 경우 허용 가능한 R 제곱 값이 무엇인지 물어볼 수 있습니다.
예측 간격
예측 구간은 예측 변수의 값을 기반으로 새 관측치가 포함될 수 있는 범위를 지정합니다. 예측 구간이 좁을수록 예측 변수가 반응 변수를 더 정확하게 예측할 수 있음을 나타냅니다.
종종 예측 구간은 새로운 관측값이 포함될 수 있는 정확한 값 범위를 제공하므로 R-제곱 값보다 더 유용할 수 있습니다. 이는 회귀의 주요 목표가 응답 변수의 새로운 값을 예측하는 것인 경우 특히 유용합니다.
예를 들어, 인구 40,000명이 특정 도시의 꽃집 30~35명의 예측 간격을 생성한다고 가정합니다. 이는 회귀 모델의 사용에 따라 허용 가능한 값 범위로 간주될 수도 있고 그렇지 않을 수도 있습니다.
결론
일반적으로 R-제곱 값이 클수록 예측 변수가 반응 변수의 값을 더 정확하게 예측할 수 있습니다.
R-제곱 값이 얼마나 좋아야 “양호”하다고 간주되는지는 도메인에 따라 다릅니다. 일부 필드는 다른 필드보다 더 높은 정밀도를 요구합니다.
“좋은” R 제곱 값으로 간주되는 것이 무엇인지 알아보려면 귀하가 일하는 분야에서 일반적으로 받아들여지는 것이 무엇인지 고려하고, 특정 분야에 대한 특정 지식을 가진 사람에게 문의하거나 고객/고객에게 문의하십시오. 회귀분석을 수행하고 있는 회사입니다. 그들이 받아들일 수 있다고 생각하는 것 때문에.
예측 변수와 반응 변수 간의 관계를 설명하려는 경우 R-제곱은 회귀 모델 해석에 영향을 주지 않기 때문에 크게 관련이 없습니다.
반응 변수를 예측하려는 경우 일반적으로 R 제곱 값보다 예측 구간이 더 유용합니다.
추가 자료: