Wat is y hat in statistieken?
In de statistiek verwijst de term y hat (geschreven ŷ ) naar de geschatte waarde van een responsvariabele in een lineair regressiemodel .
Over het algemeen schrijven we een geschatte regressievergelijking als volgt:
ŷ = β 0 + β 1 x
Goud:
- ŷ : De geschatte waarde van de responsvariabele
- β 0 : De gemiddelde waarde van de responsvariabele wanneer de voorspellende variabele nul is
- β 1 : gemiddelde verandering in de responsvariabele geassocieerd met een toename van één eenheid in de voorspellende variabele
Stel dat we bijvoorbeeld de volgende dataset hebben die het aantal uren toont dat zes verschillende studenten hebben gestudeerd, samen met hun eindexamenscores:
Stel dat we statistische software gebruiken (zoals R , Excel , Python of zelfs handmatig) om het volgende regressiemodel in te passen, met bestudeerde uren als de voorspellende variabele en de resultaten onderzoeken als de responsvariabele:
Score = 66.615 + 5.0769*(uren)
De manier om de regressiecoëfficiënten in dit model te interpreteren is als volgt:
- De gemiddelde examenscore voor een student die nul uur studeert is 66.615 .
- De examenscore stijgt met gemiddeld 5,0769 punten voor elk extra bestudeerd uur.
We kunnen deze regressievergelijking gebruiken om de score van een bepaalde student te schatten op basis van het aantal bestudeerde uren.
Een student die bijvoorbeeld 3 uur studeert, moet een score behalen van:
Score = 66,615 + 5,0769*(3) = 81,85
Waarom wordt Y Hat gebruikt?
Het ‘hoed’-symbool in de statistieken wordt gebruikt om elke ‘geschatte’ term aan te duiden. ŷ wordt bijvoorbeeld gebruikt om een geschatte responsvariabele aan te duiden.
Wanneer we lineaire regressiemodellen passen, gebruiken we doorgaans een steekproef van gegevens uit een populatie, omdat dit handiger en minder tijdrovend is dan het verzamelen van gegevens voor elke mogelijke observatie in een populatie.
Dus als we een regressievergelijking vinden, schatten we alleen de werkelijke relatie tussen een voorspellende variabele en een responsvariabele.
Daarom gebruiken we de term ŷ in de regressievergelijking in plaats van y.
Aanvullende bronnen
Inleiding tot eenvoudige lineaire regressie
Inleiding tot meervoudige lineaire regressie
Inleiding tot verklarende en responsvariabelen