Regressione attraverso l'origine: definizione ed esempio


La regressione lineare semplice è un metodo che può essere utilizzato per quantificare la relazione tra una o più variabili predittive e una variabile di risposta .

Un modello di regressione lineare semplice assume la forma seguente:

y = β 0 + β 1 x

Oro:

  • y : il valore della variabile di risposta
  • β 0 : il valore della variabile di risposta quando x = 0 (chiamato termine “intercetta”)
  • β 1 : L’aumento medio della variabile di risposta associato a un aumento di un’unità in x
  • x : il valore della variabile predittiva

Una versione modificata di questo modello è nota come regressione attraverso l’origine , che forza y ad essere uguale a 0 quando x è uguale a 0.

Questo tipo di modello assume la seguente forma:

y = β1x

Si noti che il termine di intercetta è stato completamente rimosso dal modello.

Questo modello viene talvolta utilizzato quando i ricercatori sanno che la variabile di risposta deve essere zero quando la variabile predittrice è zero.

Nel mondo reale, questo tipo di modello viene spesso utilizzato negli studi forestali o ecologici .

Ad esempio, i ricercatori possono utilizzare la circonferenza dell’albero per prevederne l’altezza. Se un dato albero ha circonferenza zero, deve avere altezza zero.

Pertanto, quando si adatta un modello di regressione a questi dati, non avrebbe senso che il termine originale fosse diverso da zero.

L’esempio seguente mostra la differenza tra l’adattamento di un modello di regressione lineare semplice ordinario e un modello che implementa la regressione tramite l’origine.

Esempio: regressione attraverso l’origine

Supponiamo che un biologo voglia adattare un modello di regressione utilizzando la circonferenza dell’albero per prevederne l’altezza. Esce e raccoglie le seguenti misurazioni per un campione di 15 alberi:

Possiamo utilizzare il seguente codice in R per adattare un modello di regressione lineare semplice con un modello di regressione che non utilizza intercettazioni e tracciare le due linee di regressione:

 #create data frame
df <- data. frame (circ=c(15, 19, 25, 39, 44, 46, 49, 54, 67, 79, 81, 84, 88, 90, 99),
                 height=c(200, 234, 285, 375, 440, 470, 564, 544, 639, 750, 830, 854,
                          901, 912, 989))

#fit a simple linear regression model
model <- lm(height ~ circ, data = df)

#fit regression through the origin
model_origin <- lm(height ~ 0 + ., data = df)

#create scatterplot
plot(df$circ, df$height, xlab=' Circumference ', ylab=' Height ',
     cex= 1.5 , pch= 16 , ylim=c(0.1000), xlim=c(0.100))

#add the fitted regression lines to the scatterplot
abline(model, col=' blue ', lwd= 2 )
abline(model_origin, lty=' dashed ', col=' red ', lwd= 2 )

regressione dall'origine

La linea tratteggiata rossa rappresenta il modello di regressione che passa attraverso l’origine e la linea continua blu rappresenta il modello di regressione lineare semplice ordinario.

Possiamo utilizzare il seguente codice in R per ottenere le stime dei coefficienti per ciascun modello:

 #display coefficients for simple linear regression model
coef(model)

(Intercept) circ 
  40.696971 9.529631 

#display coefficients for regression model through the origin
coef(model_origin)

    circ 
10.10574 

L’equazione adattata per il modello di regressione lineare semplice è:

Altezza = 40,6969 + 9,5296 (circonferenza)

E l’equazione adattata per il modello di regressione tramite l’origine è:

Altezza = 10.1057 (circonferenza)

Si noti che le stime dei coefficienti per la variabile circonferenza sono leggermente diverse.

Precauzioni per l’utilizzo della regressione tramite l’origine

Prima di utilizzare la regressione con intercetta, è necessario essere assolutamente sicuri che un valore pari a 0 per la variabile predittore implichi un valore pari a 0 per la variabile di risposta. In molti scenari, è quasi impossibile saperlo con certezza.

E se si utilizza la regressione tramite l’origine per risparmiare un certo grado di libertà nella stima dell’origine, raramente si fa una differenza sostanziale se la dimensione del campione è sufficientemente grande.

Se scegli di utilizzare la regressione tramite l’origine, assicurati di delineare il tuo ragionamento nell’analisi o nel rapporto finale.

Risorse addizionali

Le seguenti esercitazioni forniscono informazioni aggiuntive sulla regressione lineare:

Introduzione alla regressione lineare semplice
Introduzione alla regressione lineare multipla
Come leggere e interpretare una tabella di regressione

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *