Cos'è y hat nelle statistiche?
In statistica, il termine y hat (scritto ŷ ) si riferisce al valore stimato di una variabile di risposta in un modello di regressione lineare .
Generalmente scriviamo un’equazione di regressione stimata come segue:
ŷ = β 0 + β 1 x
Oro:
- ŷ : il valore stimato della variabile di risposta
- β 0 : il valore medio della variabile di risposta quando la variabile predittrice è zero
- β 1 : variazione media della variabile di risposta associata ad un aumento di un’unità della variabile predittiva
Ad esempio, supponiamo di avere il seguente set di dati che mostra il numero di ore studiate da sei studenti diversi insieme ai punteggi degli esami finali:
Supponiamo di utilizzare un software statistico (come R , Excel , Python o anche manualmente) per adattare il seguente modello di regressione utilizzando le ore studiate come variabile predittiva e i risultati degli esami come variabile di risposta:
Punteggio = 66.615 + 5.0769*(Ore)
Il modo di interpretare i coefficienti di regressione in questo modello è il seguente:
- Il punteggio medio dell’esame per uno studente che studia a zero ore è 66.615 .
- Il punteggio dell’esame aumenta in media di 5,0769 punti per ogni ora studiata in più.
Possiamo utilizzare questa equazione di regressione per stimare il punteggio di un determinato studente in base al numero di ore studiate.
Ad esempio, uno studente che studia per 3 ore dovrebbe ottenere un punteggio di:
Punteggio = 66,615 + 5,0769*(3) = 81,85
Perché viene utilizzato il cappello Y?
Il simbolo del “cappello” nelle statistiche viene utilizzato per denotare qualsiasi termine “stimato”. Ad esempio, ŷ viene utilizzato per denotare una variabile di risposta stimata.
In genere, quando adattiamo i modelli di regressione lineare, utilizziamo un campione di dati di una popolazione, perché è più conveniente e richiede meno tempo rispetto alla raccolta di dati per ogni possibile osservazione in una popolazione.
Pertanto, quando troviamo un’equazione di regressione, stiamo solo stimando la vera relazione tra una variabile predittrice e una variabile di risposta.
Questo è il motivo per cui utilizziamo il termine ŷ nell’equazione di regressione anziché y.
Risorse addizionali
Introduzione alla regressione lineare semplice
Introduzione alla regressione lineare multipla
Introduzione alle variabili esplicative e di risposta