Een eenvoudige gids voor het begrijpen van de f-test van de algehele significantie bij regressie


In deze tutorial wordt uitgelegd hoe u de F-statistiek in de uitvoer van een regressietabel kunt identificeren en hoe u deze statistiek en de bijbehorende p-waarde kunt interpreteren.

De algemene significantie F-test begrijpen

De F-test voor de algehele significantie bij regressie is een test om te bepalen of uw lineaire regressiemodel al dan niet beter aansluit bij een dataset dan een model zonder voorspellende variabelen.

De algehele significantie F-test is gebaseerd op de volgende twee aannames:

Nulhypothese ( H0 ): Het model zonder voorspellende variabelen (ook wel het alleen-intercept-model genoemd) past zowel bij de gegevens als bij uw regressiemodel.

Alternatieve hypothese ( HA ): Uw regressiemodel past beter bij de gegevens dan het alleen-intercept-model.

Wanneer u een regressiemodel aan een dataset koppelt, ontvangt u een regressietabel als uitvoer, die u de F-statistiek vertelt, samen met de overeenkomstige p-waarde voor die F-statistiek.

Als de p-waarde kleiner is dan het significantieniveau dat u kiest ( veelvoorkomende keuzes zijn 0,01, 0,05 en 0,10 ), dan heeft u voldoende bewijs om te concluderen dat uw regressiemodel alleen bij de gegevens past als bij het oorspronkelijke model. model.

Voorbeeld: F-test in regressie

Stel dat we de volgende gegevensset hebben die het totale aantal gestudeerde uren, het totale aantal afgelegde voorbereidende examens en het eindexamencijfer voor 12 verschillende studenten toont:

Om de relatie tussen de gestudeerde uren en de afgelegde voorbereidende examens te analyseren met het eindexamencijfer dat een student behaalt, voeren we een meervoudige lineaire regressie uit met gestudeerde uren en voorbereidende examens als voorspellende variabelen en het eindcijfer dat wordt onderzocht als responsvariabele.

We krijgen het volgende resultaat:

Op basis van deze resultaten zullen we ons concentreren op de F-statistiek in de ANOVA-tabel, evenals op de p-waarde van deze F-statistiek, die in de tabel wordt aangeduid als F-significantie . Als significantieniveau kiezen we 0,05.

F-statistiek: 5,090515

P-waarde: 0,0332

Technische noot: De F-statistiek wordt berekend als de MS-regressie gedeeld door het MS-residu. In dit geval is MS-regressie / MS-residu = 273,2665 / 53,68151 = 5,090515 .

Omdat de p-waarde onder het significantieniveau ligt, kunnen we concluderen dat ons regressiemodel beter bij de gegevens past dan het alleen-intercept-model.

In de context van dit specifieke probleem betekent dit dat het gebruik van onze voorspellende variabelen voor studie-uren en voorbereidende examens in het model ons in staat stelt de gegevens beter te laten passen dan wanneer we ze weg zouden laten en eenvoudigweg het intercept-model op unieke wijze zouden gebruiken.

Opmerkingen over het interpreteren van de F-test van algehele significantie

Als geen van uw voorspellende variabelen statistisch significant is, zal de totale F-toets over het algemeen ook niet statistisch significant zijn.

In sommige gevallen kan dit echter niet het geval zijn, omdat de F-test voor algehele significantie test of alle voorspellende variabelen gezamenlijk significant zijn, terwijl de T-test voor significantie voor elke individuele voorspellende variabele eenvoudigweg test of elke voorspellende variabele significant is. individueel van groot belang.

De F-test bepaalt dus of alle voorspellende variabelen gezamenlijk significant zijn of niet.

Het is mogelijk dat elke voorspellende variabele niet significant is en toch geeft de F-toets aan dat alle voorspellende variabelen samen significant zijn.

Technische noot: Over het algemeen geldt dat hoe meer voorspellende variabelen u in het model heeft, hoe groter de kans is dat de F-statistiek en de bijbehorende p-waarde statistisch significant zullen zijn.

Een andere metriek die u waarschijnlijk zult zien in de uitvoer van een regressie is R-kwadraat , die de sterkte meet van de lineaire relatie tussen de voorspellende variabelen en de responsvariabele.

Hoewel R-kwadraat je een idee kan geven van de mate waarin de voorspellende variabelen sterk geassocieerd zijn met de responsvariabele, biedt het geen formele statistische toetsing voor deze relatie.

Dit is de reden waarom de F-Test nuttig is, aangezien het een formele statistische test is. Als de algehele F-toets significant is, kun je bovendien concluderen dat R-kwadraat niet nul is en dat de correlatie tussen de voorspellende variabele(n) en de responsvariabele statistisch significant is.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veel voorkomende waarden in regressiemodellen kunt interpreteren:

Een regressietabel lezen en interpreteren
De standaardfout van regressie begrijpen
Wat is een goede R-kwadraatwaarde?

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert