Jak interpretować wyniki regresji w programie excel


Wielokrotna regresja liniowa jest jedną z najczęściej stosowanych technik we wszystkich statystykach.

W tym samouczku wyjaśniono, jak interpretować każdą wartość w wynikach modelu wielokrotnej regresji liniowej w programie Excel.

Przykład: interpretacja wyników regresji w programie Excel

Załóżmy, że chcemy wiedzieć, czy liczba godzin spędzonych na nauce i liczba zdanych egzaminów przygotowawczych wpływają na ocenę, jaką student otrzymuje z określonego egzaminu wstępnego na studia.

Aby zbadać tę zależność, możemy przeprowadzić wielokrotną regresję liniową, wykorzystując przestudiowane godziny i egzaminy przygotowawcze przyjęte jako zmienne predykcyjne, a wyniki egzaminów jako zmienną odpowiedzi.

Poniższy zrzut ekranu przedstawia wynik regresji tego modelu w programie Excel:

Dane wyjściowe wielokrotnej regresji liniowej w programie Excel

Oto jak interpretować największe wartości na wyjściu:

Wielokrotne R: 0,857 . Reprezentuje to wielokrotną korelację między zmienną odpowiedzi a dwiema zmiennymi predykcyjnymi.

R Kwadrat: 0,734 . Nazywa się to współczynnikiem determinacji. Jest to proporcja wariancji zmiennej odpowiedzi, którą można wyjaśnić za pomocą zmiennych objaśniających. W tym przykładzie 73,4% różnic w wynikach egzaminów można wytłumaczyć liczbą godzin nauki i liczbą zdanych egzaminów przygotowawczych.

Skorygowany R kwadrat: 0,703 . Reprezentuje to wartość R Square, skorygowaną o liczbę zmiennych predykcyjnych w modelu . Wartość ta będzie również niższa niż wartość R Square i będzie karać modele, które wykorzystują w modelu zbyt wiele zmiennych predykcyjnych.

Błąd standardowy: 5,366 . Jest to średnia odległość pomiędzy obserwowanymi wartościami a linią regresji. W tym przykładzie zaobserwowane wartości odbiegają średnio o 5366 jednostek od linii regresji.

Komentarze: 20 . Całkowity rozmiar próbki zbioru danych użytej do stworzenia modelu regresji.

F: 23:46 To jest ogólna statystyka F dla modelu regresji, obliczona jako MS regresji/MS rezydualne.

Znaczenie F: 0,0000 . Jest to wartość p powiązana z ogólną statystyką F. To mówi nam, czy model regresji jako całość jest statystycznie istotny, czy nie.

W tym przypadku wartość p jest mniejsza niż 0,05, co wskazuje, że zmienne objaśniające , przepracowane godziny i zdane egzaminy przygotowawcze łącznie mają statystycznie istotny związek z wynikiem egzaminu .

Współczynniki: Współczynniki każdej zmiennej objaśniającej mówią nam o oczekiwanej średniej zmianie zmiennej odpowiedzi, przy założeniu, że druga zmienna objaśniająca pozostaje stała.

Na przykład za każdą dodatkową godzinę spędzoną na nauce średni wynik egzaminu powinien wzrosnąć o 5,56 , przy założeniu, że liczba zdanych egzaminów praktycznych pozostanie stała.

Interpretujemy współczynnik przechwytywania w ten sposób, że oczekiwany wynik egzaminu dla studenta, który nie studiuje i nie przystępuje do egzaminów przygotowawczych, wynosi 67,67 .

Wartości P. Poszczególne wartości p mówią nam, czy każda zmienna objaśniająca jest istotna statystycznie, czy nie. Widzimy, że przepracowane godziny są istotne statystycznie (p = 0,00), natomiast zdane egzaminy przygotowawcze (p = 0,52) nie są istotne statystycznie przy α = 0,05.

Jak zapisać oszacowane równanie regresji

Możemy wykorzystać współczynniki z wyników modelu do utworzenia następującego oszacowanego równania regresji:

Wynik egzaminu = 67,67 + 5,56*(godziny) – 0,60*(egzaminy przygotowawcze)

Możemy użyć tego szacunkowego równania regresji do obliczenia oczekiwanego wyniku egzaminu dla studenta na podstawie liczby godzin nauki i liczby egzaminów praktycznych, które zdają.

Przykładowo, student studiujący trzy godziny i przystępujący do egzaminu przygotowawczego powinien otrzymać ocenę 83,75 :

Wynik egzaminu = 67,67 + 5,56*(3) – 0,60*(1) = 83,75

Należy pamiętać, że ponieważ poprzednie badania przygotowawcze nie były istotne statystycznie (p=0,52), możemy zdecydować się na ich usunięcie, gdyż nie wnoszą one żadnej poprawy w stosunku do ogólnego modelu.

W tym przypadku moglibyśmy przeprowadzić prostą regresję liniową, wykorzystując jedynie badane godziny jako zmienną objaśniającą.

Dodatkowe zasoby

Wprowadzenie do prostej regresji liniowej
Wprowadzenie do wielokrotnej regresji liniowej

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *