해결 방법: 잘못된 순위 조정 예측은 오해를 불러일으킬 수 있습니다.


R에서 접할 수 있는 일반적인 경고는 다음과 같습니다.

 Warning message:
In predict.lm(model, df):
  prediction from a rank-deficient fit may be misleading

이 경고는 다음 두 가지 이유로 발생할 수 있습니다.

이유 1 : 두 예측 변수가 완벽하게 상관되어 있습니다.

이유 2 : 데이터 세트의 관측치보다 모델 매개변수가 더 많습니다.

다음 예에서는 각 문제가 실제로 어떻게 발생할 수 있는지 보여줍니다.

이유 #1: 두 예측 변수가 완벽하게 상관되어 있습니다.

다음과 같은 다중 선형 회귀 모델을 R에 맞추고 이를 사용하여 예측을 한다고 가정해 보겠습니다.

 #create data frame
df <- data. frame (x1=c(1, 2, 3, 4),
                 x2=c(2, 4, 6, 8),
                 y=c(6, 10, 19, 26))

#fit multiple linear regression model
model <- lm(y~x1+x2, data=df)

#use model to make predictions
predict(model, df)

   1 2 3 4 
 4.9 11.8 18.7 25.6 
Warning message:
In predict.lm(model, df):
  prediction from a rank-deficient fit may be misleading

예측 변수 x1과 x2가 완벽하게 상관되어 있기 때문에 경고 메시지를 받습니다.

x2 값은 x1 값에 2를 곱한 것과 같습니다. 이는 완벽한 다중공선성의 예입니다.

이는 x1과 x2가 회귀 모델에서 고유하거나 독립적인 정보를 제공하지 않음을 의미하며, 이는 모델을 피팅하고 해석할 때 문제를 일으킵니다.

이 문제를 해결하는 가장 쉬운 방법은 모델에서 예측 변수 중 하나를 간단히 제거하는 것입니다. 모델에 두 예측 변수가 모두 있으면 중복되기 때문입니다.

이유 #2: 관측치보다 모델 매개변수가 더 많습니다.

다음과 같은 다중 선형 회귀 모델을 R에 맞추고 이를 사용하여 예측을 한다고 가정해 보겠습니다.

 #create data frame
df <- data. frame (x1=c(1, 2, 3, 4),
                 x2=c(3, 3, 8, 12),
                 x3=c(4, 6, 3, 11),
                 y=c(6, 10, 19, 26))

#fit multiple linear regression model
model <- lm(y~x1*x2*x3, data=df)

#use model to make predictions
predict(model, df)

 1 2 3 4 
 6 10 19 26 
Warning message:
In predict.lm(model, df):
  prediction from a rank-deficient fit may be misleading

총 7개의 모델 계수로 회귀 모델을 맞추려고 했기 때문에 경고 메시지가 표시됩니다.

  • x1
  • x2
  • x3
  • x1*x2
  • x1*3
  • x2*x3
  • x1*x2*x3

그러나 데이터세트에는 총 4개의 관측값만 있습니다.

모델 매개변수의 수가 데이터 세트의 관측치 수보다 크기 때문에 이를 고차원 데이터 라고 부릅니다.

고차원 데이터를 사용하면 모델을 훈련할 관측값이 충분하지 않기 때문에 예측 변수와 응답 변수 사이의 관계를 설명할 수 있는 모델을 찾는 것이 불가능해집니다.

이 문제를 해결하는 가장 간단한 방법은 데이터 세트에 대한 더 많은 관측치를 수집하거나 추정할 계수가 더 적은 간단한 모델을 사용하는 것입니다.

추가 리소스

다음 튜토리얼에서는 R의 다른 일반적인 오류를 처리하는 방법을 설명합니다.

처리 방법: glm.fit: 알고리즘이 수렴되지 않았습니다.
처리 방법: glm.fit: 수치적으로 조정된 확률 0 또는 1 발생

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다