Jak interpretować punkt przecięcia w modelu regresji: z przykładami
Punkt wolny (czasami nazywany „stałą”) w modelu regresji reprezentuje średnią wartość zmiennej odpowiedzi, gdy wszystkie zmienne predykcyjne w modelu są równe zero.
W tym samouczku wyjaśniono, jak interpretować oryginalną wartość w modelach prostej regresji liniowej i wielokrotnej regresji liniowej.
Interpretacja przecięcia w prostej regresji liniowej
Prosty model regresji liniowej przyjmuje następującą postać:
ŷ = β 0 + β 1 (x)
Złoto:
- ŷ: przewidywana wartość zmiennej odpowiedzi
- β 0 : Średnia wartość zmiennej odpowiedzi, gdy x = 0
- β 1 : Średnia zmiana zmiennej odpowiedzi przy jednostkowym wzroście x
- x: wartość zmiennej predykcyjnej
W niektórych przypadkach sensowna jest interpretacja wartości wyrazu wolnego w prostym modelu regresji liniowej, ale nie zawsze. Ilustrują to poniższe przykłady.
Przykład 1: Przechwytywanie ma sens zinterpretować
Załóżmy, że chcemy dopasować prosty model regresji liniowej, wykorzystując przestudiowane godziny jako zmienną predykcyjną i wyniki egzaminów jako zmienną odpowiedzi.
Zbieramy te dane dla 50 studentów określonego kierunku uniwersyteckiego i dopasowujemy następujący model regresji:
Wynik egzaminu = 65,4 + 2,67 (godziny)
Wartość pierwotnego składnika w tym modelu wynosi 65,4 . Oznacza to, że średni wynik egzaminu wynosi 65,4 , gdy liczba godzin nauki wynosi zero.
Interpretacja ta ma sens, ponieważ prawdopodobne jest, że student będzie uczył się przed egzaminem przez zero godzin.
Przykład 2: Przechwytywanie nie ma sensu interpretować
Załóżmy, że chcemy dopasować prosty model regresji liniowej, wykorzystując wagę (w funtach) jako zmienną predykcyjną i wzrost (w calach) jako zmienną odpowiedzi.
Zbieramy te dane dla 50 osób i stosujemy następujący model regresji:
Wzrost = 22,3 + 0,28 (funtów)
Wartość pierwotnego składnika w tym modelu wynosi 22,3 . Oznaczałoby to, że przeciętny wzrost człowieka wynosi 22,3 cala, gdy jego waga wynosi zero.
Interpretacja tego nie ma sensu, ponieważ nie jest możliwe, aby dana osoba ważyła zero funtów.
Jednak nadal musimy zachować pierwotny człon w modelu, abyśmy mogli wykorzystać model do przewidywania. Przecięcie po prostu nie ma znaczącej interpretacji dla tego modelu.
Interpretacja punktu przecięcia w wielokrotnej regresji liniowej
Model regresji liniowej wielokrotnej ma następującą postać:
ŷ = β 0 + β 1 (x 1 ) + β 2 (x 2 ) + β 3 (x 3 ) + … + β k (x k )
Złoto:
- ŷ: przewidywana wartość zmiennej odpowiedzi
- β 0 : Średnia wartość zmiennej odpowiedzi, gdy wszystkie zmienne predykcyjne wynoszą zero
- β j : średnia zmiana zmiennej odpowiedzi na jednojednostkowy wzrost j- tej zmiennej predykcyjnej, przy założeniu, że wszystkie pozostałe zmienne predykcyjne pozostają stałe.
- x j : wartość j -tej zmiennej predykcyjnej
Podobnie jak w przypadku prostej regresji liniowej, czasami warto zinterpretować wartość wyrazu wolnego w modelu wielokrotnej regresji liniowej, ale nie zawsze. Ilustrują to poniższe przykłady.
Przykład 1: Przechwytywanie ma sens zinterpretować
Załóżmy, że chcemy dopasować model regresji liniowej, wykorzystując godziny nauki i egzaminy przygotowawcze jako zmienne predykcyjne, a wyniki egzaminów jako zmienną odpowiedzi.
Zbieramy te dane dla 50 studentów określonego kierunku uniwersyteckiego i dopasowujemy następujący model regresji:
Wynik egzaminu = 58,4 + 2,23 (godziny) + 1,34 (liczba egzaminów przygotowawczych)
Wartość pierwotnego składnika w tym modelu wynosi 58,4 . Oznacza to, że średni wynik egzaminu wynosi 58,4 , gdy liczba godzin nauki i liczba zdanych egzaminów przygotowawczych są równe zero.
Interpretacja ta ma sens, ponieważ prawdopodobne jest, że student będzie uczył się przez zero godzin i nie będzie przystępował do żadnych egzaminów przygotowawczych przed samym egzaminem.
Przykład 2: Przechwytywanie nie ma sensu interpretować
Załóżmy, że chcemy dopasować model regresji liniowej, wykorzystując powierzchnię i liczbę sypialni jako zmienne predykcyjne oraz cenę sprzedaży jako zmienną odpowiedzi.
Zbieramy te dane dla 100 domów w danym mieście i stosujemy następujący model regresji:
Cena = 87 244 + 3,44 (stopy kwadratowe) + 843,45 (liczba sypialni)
Wartość pierwotnego składnika w tym modelu wynosi 87,244 . Oznaczałoby to, że średnia cena sprzedaży domu wynosi 87 244 USD , gdy powierzchnia domu i liczba sypialni są równe zero.
Interpretacja tego nie ma sensu, ponieważ nie jest możliwe, aby dom miał zerową powierzchnię użytkową i zero sypialni.
Jednak nadal musimy zachować pierwotny człon w modelu, aby móc go wykorzystać do przewidywania. Przecięcie po prostu nie ma znaczącej interpretacji dla tego modelu.
Dodatkowe zasoby
Wprowadzenie do prostej regresji liniowej
Wprowadzenie do wielokrotnej regresji liniowej
Jak interpretować współczynniki regresji cząstkowej