Regressie door de oorsprong: definitie en voorbeeld


Eenvoudige lineaire regressie is een methode die kan worden gebruikt om de relatie tussen een of meer voorspellende variabelen en eenresponsvariabele te kwantificeren.

Een eenvoudig lineair regressiemodel heeft de volgende vorm:

y = β 0 + β 1 x

Goud:

  • y : De waarde van de responsvariabele
  • β 0 : De waarde van de responsvariabele wanneer x = 0 (de “intercept”-term genoemd)
  • β 1 : De gemiddelde toename van de responsvariabele geassocieerd met een toename van één eenheid in x
  • x : De waarde van de voorspellende variabele

Een aangepaste versie van dit model staat bekend als regressie door de oorsprong , waardoor y gelijk is aan 0 wanneer x gelijk is aan 0.

Dit type model heeft de volgende vorm:

y = β1x

Merk op dat de intercept-term volledig uit het model is verwijderd.

Dit model wordt soms gebruikt als onderzoekers weten dat de responsvariabele nul moet zijn als de voorspellende variabele nul is.

In de echte wereld wordt dit type model het vaakst gebruikt in bosbouw- of ecologische studies .

Onderzoekers kunnen bijvoorbeeld de boomomtrek gebruiken om de boomhoogte te voorspellen. Als een bepaalde boom een omtrek van nul heeft, moet deze ook een hoogte van nul hebben.

Dus als een regressiemodel op deze gegevens wordt toegepast, zou het niet logisch zijn als de oorspronkelijke term niet nul zou zijn.

Het volgende voorbeeld laat het verschil zien tussen het aanpassen van een gewoon eenvoudig lineair regressiemodel en een model dat regressie via de oorsprong implementeert.

Voorbeeld: regressie via de oorsprong

Stel dat een bioloog een regressiemodel wil passen met behulp van de boomomtrek om de boomhoogte te voorspellen. Ze gaat eropuit en verzamelt de volgende metingen voor een steekproef van 15 bomen:

We kunnen de volgende code in R gebruiken om een eenvoudig lineair regressiemodel te fitten met een regressiemodel dat geen intercepts gebruikt en de twee regressielijnen uit te zetten:

 #create data frame
df <- data. frame (circ=c(15, 19, 25, 39, 44, 46, 49, 54, 67, 79, 81, 84, 88, 90, 99),
                 height=c(200, 234, 285, 375, 440, 470, 564, 544, 639, 750, 830, 854,
                          901, 912, 989))

#fit a simple linear regression model
model <- lm(height ~ circ, data = df)

#fit regression through the origin
model_origin <- lm(height ~ 0 + ., data = df)

#create scatterplot
plot(df$circ, df$height, xlab=' Circumference ', ylab=' Height ',
     cex= 1.5 , pch= 16 , ylim=c(0.1000), xlim=c(0.100))

#add the fitted regression lines to the scatterplot
abline(model, col=' blue ', lwd= 2 )
abline(model_origin, lty=' dashed ', col=' red ', lwd= 2 )

regressie vanaf de oorsprong

De rode stippellijn vertegenwoordigt het regressiemodel dat door de oorsprong gaat, en de blauwe ononderbroken lijn vertegenwoordigt het gewone, eenvoudige lineaire regressiemodel.

We kunnen de volgende code in R gebruiken om de coëfficiëntschattingen voor elk model te verkrijgen:

 #display coefficients for simple linear regression model
coef(model)

(Intercept) circ 
  40.696971 9.529631 

#display coefficients for regression model through the origin
coef(model_origin)

    circ 
10.10574 

De aangepaste vergelijking voor het eenvoudige lineaire regressiemodel is:

Hoogte = 40,6969 + 9,5296 (omtrek)

En de gepaste vergelijking voor het regressiemodel via de oorsprong is:

Hoogte = 10,1057 (omtrek)

Merk op dat de coëfficiëntschattingen voor de omtrekvariabele enigszins afwijken.

Voorzorgsmaatregelen voor het gebruik van regressie via de oorsprong

Voordat u intercept-regressie gebruikt, moet u er absoluut zeker van zijn dat een waarde van 0 voor de voorspellende variabele een waarde van 0 voor de responsvariabele impliceert. In veel scenario’s is het bijna onmogelijk om het zeker te weten.

En als je regressie via de oorsprong gebruikt om een zekere mate van vrijheid te besparen bij het schatten van de oorsprong, maakt het zelden een substantieel verschil als je steekproefomvang groot genoeg is.

Als u ervoor kiest om regressie via de oorsprong te gebruiken, zorg er dan voor dat u uw redenering schetst in uw uiteindelijke analyse of rapport.

Aanvullende bronnen

De volgende zelfstudies bieden aanvullende informatie over lineaire regressie:

Inleiding tot eenvoudige lineaire regressie
Inleiding tot meervoudige lineaire regressie
Een regressietabel lezen en interpreteren

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert