Comprendere l'ipotesi nulla per la regressione lineare
La regressione lineare è una tecnica che possiamo utilizzare per comprendere la relazione tra una o più variabili predittive e una variabile di risposta .
Se abbiamo solo una variabile predittore e una variabile di risposta, possiamo utilizzare la regressione lineare semplice , che utilizza la seguente formula per stimare la relazione tra le variabili:
ŷ = β 0 + β 1 x
Oro:
- ŷ: il valore di risposta stimato.
- β 0 : Il valore medio di y quando x è zero.
- β 1 : La variazione media di y associata ad un aumento di un’unità di x.
- x: il valore della variabile predittiva.
La regressione lineare semplice utilizza le seguenti ipotesi nulle e alternative:
- H0 : β1 = 0
- H A : β 1 ≠ 0
L’ipotesi nulla prevede che il coefficiente β 1 sia pari a zero. In altre parole, non esiste una relazione statisticamente significativa tra la variabile predittrice x e la variabile risposta y.
L’ipotesi alternativa afferma che β 1 non è uguale a zero. In altre parole, esiste una relazione statisticamente significativa tra x e y.
Se disponiamo di più variabili predittive e di una variabile di risposta, possiamo utilizzare la regressione lineare multipla , che utilizza la seguente formula per stimare la relazione tra le variabili:
ŷ = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
Oro:
- ŷ: il valore di risposta stimato.
- β 0 : il valore medio di y quando tutte le variabili predittive sono uguali a zero.
- β i : La variazione media di y associata ad un aumento di un’unità di x i .
- x i : il valore della variabile predittore x i .
La regressione lineare multipla utilizza le seguenti ipotesi nulle e alternative:
- H 0 : β 1 = β 2 = … = β k = 0
- H A : β 1 = β 2 = … = β k ≠ 0
L’ipotesi nulla afferma che tutti i coefficienti del modello sono uguali a zero. In altre parole, nessuna delle variabili predittive ha una relazione statisticamente significativa con la variabile di risposta y.
L’ipotesi alternativa afferma che non tutti i coefficienti sono contemporaneamente uguali a zero.
Gli esempi seguenti mostrano come decidere se rifiutare o meno l’ipotesi nulla nei modelli di regressione lineare semplice e di regressione lineare multipla.
Esempio 1: regressione lineare semplice
Supponiamo che un professore voglia utilizzare il numero di ore studiate per prevedere il voto dell’esame che otterranno gli studenti della sua classe. Raccoglie dati da 20 studenti e si adatta a un semplice modello di regressione lineare.
La seguente schermata mostra il risultato del modello di regressione:
Il modello di regressione lineare semplice adattato è:
Punteggio esame = 67.1617 + 5.2503*(ore studiate)
Per determinare se esiste una relazione statisticamente significativa tra le ore studiate e il punteggio dell’esame, dobbiamo analizzare il valore F complessivo del modello e il valore p corrispondente:
- Valore F complessivo: 47,9952
- Valore P: 0,000
Poiché questo valore p è inferiore a 0,05, possiamo rifiutare l’ipotesi nulla. In altre parole, esiste una relazione statisticamente significativa tra le ore studiate e i punteggi degli esami.
Esempio 2: Regressione lineare multipla
Supponiamo che un professore voglia utilizzare il numero di ore studiate e il numero di esami preparatori sostenuti per prevedere il voto che gli studenti otterranno nella sua classe. Raccoglie dati da 20 studenti e si adatta a un modello di regressione lineare multipla.
La seguente schermata mostra il risultato del modello di regressione:
Il modello di regressione lineare multipla adattata è:
Punteggio esame = 67,67 + 5,56*(ore studiate) – 0,60*(esami preparatori sostenuti)
Per determinare se esiste una relazione statisticamente significativa tra le due variabili predittive e la variabile di risposta, dobbiamo analizzare il valore F complessivo del modello e il valore p corrispondente:
- Valore F complessivo: 23,46
- Valore P: 0,00
Poiché questo valore p è inferiore a 0,05, possiamo rifiutare l’ipotesi nulla. In altre parole, le ore studiate e gli esami preparatori sostenuti hanno una relazione statisticamente significativa con i risultati degli esami.
Nota: sebbene il valore p per gli esami preparatori sostenuti (p = 0,52) non sia significativo, gli esami preparatori combinati con le ore studiate hanno una relazione significativa con i risultati degli esami.
Risorse addizionali
Comprensione del test F per la significatività complessiva nella regressione
Come leggere e interpretare una tabella di regressione
Come riportare i risultati della regressione
Come eseguire una regressione lineare semplice in Excel
Come eseguire una regressione lineare multipla in Excel