Regresja przez pochodzenie: definicja i przykład


Prosta regresja liniowa to metoda, którą można zastosować do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi .

Prosty model regresji liniowej przyjmuje następującą postać:

y = β 0 + β 1 x

Złoto:

  • y : Wartość zmiennej odpowiedzi
  • β 0 : Wartość zmiennej odpowiedzi, gdy x = 0 (nazywana składnikiem „wycięcia”)
  • β 1 : Średni wzrost zmiennej odpowiedzi powiązany ze wzrostem x o jedną jednostkę
  • x : Wartość zmiennej predykcyjnej

Zmodyfikowana wersja tego modelu znana jest jako regresja przez początek , która wymusza, aby y było równe 0, gdy x jest równe 0.

Ten typ modelu przyjmuje następującą postać:

y = β1x

Należy zauważyć, że człon wyrazu wolnego został całkowicie usunięty z modelu.

Model ten jest czasami używany, gdy badacze wiedzą, że zmienna odpowiedzi musi wynosić zero, gdy zmienna predykcyjna wynosi zero.

W świecie rzeczywistym tego typu model najczęściej wykorzystuje się w badaniach leśnych czy ekologicznych .

Na przykład badacze mogą wykorzystać obwód drzewa do przewidywania wysokości drzewa. Jeśli dane drzewo ma zerowy obwód, musi mieć zerową wysokość.

Zatem dopasowując model regresji do tych danych, nie miałoby sensu, aby pierwotny składnik był różny od zera.

Poniższy przykład pokazuje różnicę między dopasowaniem zwykłego prostego modelu regresji liniowej a modelem, który implementuje regresję poprzez początek.

Przykład: regresja przez początek

Załóżmy, że biolog chce dopasować model regresji, wykorzystując obwód drzewa do przewidywania wysokości drzewa. Wychodzi i zbiera następujące pomiary dla próbki 15 drzew:

Możemy użyć następującego kodu w języku R, aby dopasować prosty model regresji liniowej do modelu regresji, który nie wykorzystuje punktów przecięcia, i wykreślić dwie linie regresji:

 #create data frame
df <- data. frame (circ=c(15, 19, 25, 39, 44, 46, 49, 54, 67, 79, 81, 84, 88, 90, 99),
                 height=c(200, 234, 285, 375, 440, 470, 564, 544, 639, 750, 830, 854,
                          901, 912, 989))

#fit a simple linear regression model
model <- lm(height ~ circ, data = df)

#fit regression through the origin
model_origin <- lm(height ~ 0 + ., data = df)

#create scatterplot
plot(df$circ, df$height, xlab=' Circumference ', ylab=' Height ',
     cex= 1.5 , pch= 16 , ylim=c(0.1000), xlim=c(0.100))

#add the fitted regression lines to the scatterplot
abline(model, col=' blue ', lwd= 2 )
abline(model_origin, lty=' dashed ', col=' red ', lwd= 2 )

regresja od źródła

Czerwona linia przerywana przedstawia model regresji przechodzący przez początek, a niebieska linia ciągła przedstawia zwykły prosty model regresji liniowej.

Możemy użyć następującego kodu w R, aby uzyskać oszacowania współczynników dla każdego modelu:

 #display coefficients for simple linear regression model
coef(model)

(Intercept) circ 
  40.696971 9.529631 

#display coefficients for regression model through the origin
coef(model_origin)

    circ 
10.10574 

Dopasowane równanie prostego modelu regresji liniowej wygląda następująco:

Wysokość = 40,6969 + 9,5296 (obwód)

Dopasowane równanie modelu regresji poprzez początek to:

Wysokość = 10,1057 (obwód)

Należy zauważyć, że szacunki współczynników dla zmiennej obwodu są nieco inne.

Środki ostrożności dotyczące stosowania regresji poprzez początek

Przed użyciem regresji przecięcia należy mieć całkowitą pewność, że wartość 0 dla zmiennej predykcyjnej implikuje wartość 0 dla zmiennej odpowiedzi. W wielu scenariuszach prawie niemożliwe jest, aby mieć pewność.

A jeśli użyjesz regresji poprzez początek, aby zachować pewien stopień swobody w szacowaniu pochodzenia, rzadko robi to znaczącą różnicę, jeśli wielkość próbki jest wystarczająco duża.

Jeśli zdecydujesz się zastosować regresję poprzez początek, pamiętaj o przedstawieniu swojego rozumowania w końcowej analizie lub raporcie.

Dodatkowe zasoby

Poniższe samouczki zawierają dodatkowe informacje na temat regresji liniowej:

Wprowadzenie do prostej regresji liniowej
Wprowadzenie do wielokrotnej regresji liniowej
Jak czytać i interpretować tabelę regresji

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *