Una semplice guida per comprendere il test f della significatività complessiva nella regressione


Questo tutorial spiega come identificare la statistica F nell’output di una tabella di regressione e come interpretare questa statistica e il suo valore p corrispondente.

Comprensione del test F di significatività complessiva

Il test F per la significatività complessiva nella regressione è un test per determinare se il modello di regressione lineare fornisce o meno un adattamento migliore a un set di dati rispetto a un modello senza variabili predittive.

Il test F di significatività complessiva si basa sui due presupposti seguenti:

Ipotesi nulla ( H0 ): il modello senza variabili predittive (chiamato anche modello di sola intercetta ) si adatta ai dati così come al modello di regressione.

Ipotesi alternativa ( HA ): il modello di regressione si adatta meglio ai dati rispetto al modello di sola intercettazione.

Quando adatti un modello di regressione a un set di dati, riceverai come output una tabella di regressione , che ti indicherà la statistica F insieme al valore p corrispondente per quella statistica F.

Se il valore p è inferiore al livello di significatività scelto ( le scelte comuni sono 0,01, 0,05 e 0,10 ), allora hai prove sufficienti per concludere che il tuo modello di regressione si adatta ai dati solo come modello originale. modello.

Esempio: test F in regressione

Supponiamo di avere il seguente set di dati che mostra il numero totale di ore studiate, il numero totale di esami preparatori sostenuti e il voto dell’esame finale per 12 studenti diversi:

Per analizzare il rapporto tra le ore di studio e gli esami preparatori sostenuti con il voto ottenuto dallo studente all’esame finale, effettuiamo una regressione lineare multipla utilizzando le ore di studio e gli esami preparatori assunti come variabili predittive e il voto finale in esame come variabile di risposta.

Riceviamo il seguente risultato:

Da questi risultati, ci concentreremo sulla statistica F fornita nella tabella ANOVA nonché sul valore p di questa statistica F, etichettato come Significanza F nella tabella. Sceglieremo 0,05 come livello di significatività.

Statistica F: 5.090515

Valore P: 0,0332

Nota tecnica: la statistica F è calcolata come la regressione MS divisa per il residuo MS. In questo caso, regressione MS/residuo MS = 273,2665 / 53,68151 = 5,090515 .

Poiché il valore p è inferiore al livello di significatività, possiamo concludere che il nostro modello di regressione si adatta meglio ai dati rispetto al modello di sola intercettazione.

Nel contesto di questo problema specifico, ciò significa che l’utilizzo delle variabili predittive delle ore di studio e degli esami preparatori nel modello ci consente di adattare i dati meglio che se li escludessimo e utilizzassimo semplicemente il modello di intercettazione in modo univoco.

Note sull’interpretazione del test F di significatività complessiva

In generale, se nessuna delle variabili predittive è statisticamente significativa, neanche il test F complessivo sarà statisticamente significativo.

Tuttavia, questo potrebbe non essere il caso in alcuni casi, perché il test F per la significatività complessiva verifica se tutte le variabili predittive sono congiuntamente significative, mentre il test T per la significatività per ogni singola variabile predittiva verifica semplicemente se ciascuna variabile predittiva è significativa. individualmente significativi.

Pertanto, il test F determina se tutte le variabili predittive sono congiuntamente significative o meno.

È possibile che ciascuna variabile predittiva non sia significativa e tuttavia il test F indica che tutte le variabili predittive combinate sono congiuntamente significative.

Nota tecnica: in generale, maggiore è il numero di variabili predittive presenti nel modello, maggiore è la probabilità che la statistica F e il corrispondente valore p siano statisticamente significativi.

Un’altra metrica che probabilmente vedrai nell’output di una regressione è R-squared , che misura la forza della relazione lineare tra le variabili predittive e la variabile di risposta è un’altra.

Sebbene R-quadrato possa darti un’idea della misura in cui le variabili predittive sono fortemente associate alla variabile di risposta, non fornisce un test statistico formale per questa relazione.

Questo è il motivo per cui l’F-Test è utile poiché è un test statistico formale. Inoltre, se il test F complessivo è significativo, è possibile concludere che R quadrato non è zero e che la correlazione tra le variabili predittive e la variabile di risposta è statisticamente significativa.

Risorse addizionali

I seguenti tutorial spiegano come interpretare altri valori comuni nei modelli di regressione:

Come leggere e interpretare una tabella di regressione
Comprendere l’errore standard di regressione
Qual è un buon valore R quadrato?

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *