Che cos'è un test f parziale?
Un test F parziale viene utilizzato per determinare se esiste o meno una differenza statisticamente significativa tra un modello di regressione e una versione nidificata dello stesso modello.
Un modello nidificato è semplicemente un modello che contiene un sottoinsieme di variabili predittive nel modello di regressione complessivo.
Ad esempio, supponiamo di avere il seguente modello di regressione con quattro variabili predittive:
Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε
Un esempio di modello nidificato sarebbe il seguente modello con solo due delle variabili predittive originali:
Y = β 0 + β 1 x 1 + β 2 x 2 + ε
Per determinare se questi due modelli sono significativamente diversi, possiamo eseguire un test F parziale.
Prova parziale F: le basi
Un test F parziale calcola la seguente statistica del test F:
F = (( RSS ridotto – RSS completo )/p) / ( RSS completo /nk)
Oro:
- RSS ridotto : la somma residua dei quadrati del modello ridotto (cioè “nidificato”).
- RSS pieno : la somma residua dei quadrati del modello completo.
- p: numero di predittori rimossi dal modello completo.
- n: il numero totale di osservazioni nel set di dati.
- k: il numero di coefficienti (inclusa l’intercetta) nel modello completo.
Si noti che la somma residua dei quadrati sarà sempre inferiore per il modello completo poiché l’aggiunta di predittori comporterà sempre una certa riduzione dell’errore.
Pertanto, un test F parziale verifica essenzialmente se il gruppo di predittori rimossi dal modello completo è effettivamente utile e deve essere incluso nel modello completo.
Questo test utilizza le seguenti ipotesi nulle e alternative:
H 0 : tutti i coefficienti rimossi dal modello completo sono zero.
H A : Almeno uno dei coefficienti rimossi dal modello completo è diverso da zero.
Se il valore p corrispondente alla statistica F-test è inferiore a un certo livello di significatività (ad esempio 0,05), allora possiamo rifiutare l’ipotesi nulla e concludere che almeno uno dei coefficienti rimossi dal modello completo è significativo.
Test F parziale: un esempio
In pratica, utilizziamo i seguenti passaggi per eseguire un test F parziale:
1. Adattare il modello di regressione completo e calcolare RSS full .
2. Adattare il modello di regressione nidificato e calcolare l’RSS ridotto .
3. Eseguire un’ANOVA per confrontare il modello completo e quello ridotto, che produrrà la statistica F-test necessaria per confrontare i modelli.
Ad esempio, il codice seguente mostra come adattare i due modelli di regressione seguenti in R utilizzando i dati del set di dati mtcars integrato:
Modello completo: mpg = β 0 + β 1 disponibile + β 2 carboidrati + β 3 cv + β 4 cil
Modello: mpg = β 0 + β 1 disponibile + β 2 carb
#fit full model model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp + carb, data = mtcars) #perform ANOVA to test for differences in models anova(model_reduced, model_full) Analysis of Variance Table Model 1: mpg ~ available + carb Model 2: mpg ~ disp + carb + hp + cyl Res.Df RSS Df Sum of Sq F Pr(>F) 1 29 254.82 2 27 238.71 2 16.113 0.9113 0.414
Dal risultato, possiamo vedere che la statistica del test F di ANOVA è 0,9113 e il corrispondente valore p è 0,414 .
Poiché questo valore p non è inferiore a 0,05, non riusciremo a rifiutare l’ipotesi nulla. Ciò significa che non abbiamo prove sufficienti per affermare che una delle variabili predittive hp o cil sia statisticamente significativa.
In altre parole, l’aggiunta di CV e cilindri al modello di regressione non migliora in modo significativo l’adattamento del modello.