Come eseguire il test goldfeld-quandt in r


Il test di Goldfeld-Quandt viene utilizzato per determinare se l’eteroschedasticità è presente in un modello di regressione.

L’eteroschedasticità si riferisce alla dispersione non uniforme dei residui a diversi livelli di una variabile di risposta in un modello di regressione.

Se è presente l’eteroschedasticità, ciò viola uno dei presupposti chiave della regressione lineare secondo cui i residui sono equamente dispersi a ciascun livello della variabile di risposta.

Questo tutorial fornisce un esempio passo passo di come eseguire il test Goldfeld-Quandt in R per determinare se l’eteroschedasticità è presente o meno in un determinato modello di regressione.

Passaggio 1: creare un modello di regressione

Innanzitutto, creeremo un modello di regressione lineare multipla utilizzando il set di dati mtcars integrato in R:

 #fit a regression model
model <- lm(mpg~disp+hp, data=mtcars)

#view model summary
summary(model)

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 30.735904 1.331566 23.083 < 2nd-16 ***
available -0.030346 0.007405 -4.098 0.000306 ***
hp -0.024840 0.013385 -1.856 0.073679 .  
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.127 on 29 degrees of freedom
Multiple R-squared: 0.7482, Adjusted R-squared: 0.7309 
F-statistic: 43.09 on 2 and 29 DF, p-value: 2.062e-09

Passaggio 2: eseguire il test Goldfeld-Quandt

Successivamente, utilizzeremo la funzione gqtest() del pacchetto lmtest per eseguire il test Goldfeld-Quandt per determinare se è presente l’eteroschedasticità.

Questa funzione utilizza la seguente sintassi:

gqtest(modello, ordine.per, dati, frazione)

Oro:

  • modello: il modello di regressione lineare creato dal comando lm().
  • order.by: le variabili predittive del modello.
  • dati: il nome del set di dati.
  • frazione*: numero di osservazioni centrali da rimuovere dal set di dati.

*Il test Goldfeld-Quandt funziona rimuovendo un numero di osservazioni situate al centro del set di dati e quindi testando per vedere se la distribuzione dei residui è diversa dai due set di dati risultanti che si trovano su entrambi i lati dei set di dati. osservazioni centrali.

In genere, scegliamo di rimuovere circa il 20% delle osservazioni totali. In questo caso, mtcars ha 32 osservazioni in totale, quindi possiamo scegliere di rimuovere le 7 osservazioni centrali:

 #load lmtest library
library(lmtest)

#perform the Goldfeld Quandt test
gqtest(model, order.by = ~disp+hp, data = mtcars, fraction = 7)

	Goldfeld-Quandt test

data: model
GQ = 1.0316, df1 = 10, df2 = 9, p-value = 0.486
alternative hypothesis: variance increases from segment 1 to 2

Ecco come interpretare il risultato:

  • La statistica del test è 1.0316 .
  • Il valore p corrispondente è 0,486 .

Il test di Goldfeld-Quandt utilizza le seguenti ipotesi nulle e alternative:

  • Nullo (H 0 ) : è presente l’omoschedasticità.
  • Alternativa ( HA ): è presente eteroschedasticità.

Poiché il valore p non è inferiore a 0,05, non riusciamo a rifiutare l’ipotesi nulla. Non abbiamo prove sufficienti per affermare che l’eteroschedasticità sia presente nel modello di regressione.

Cosa fare dopo

Se non si riesce a rifiutare l’ipotesi nulla del test di Goldfeld-Quandt, l’eteroschedasticità non è presente e si può procedere a interpretare il risultato della regressione originale.

Tuttavia, se si rifiuta l’ipotesi nulla, significa che nei dati è presente l’eteroschedasticità. In questo caso, gli errori standard visualizzati nella tabella di output della regressione potrebbero essere inaffidabili.

Esistono diversi modi comuni per risolvere questo problema, tra cui:

1. Trasformare la variabile di risposta.

Puoi provare a eseguire una trasformazione sulla variabile di risposta, ad esempio prendendo il logaritmo, la radice quadrata o la radice cubica della variabile di risposta. In generale, ciò può far scomparire l’eteroschedasticità.

2. Utilizzare la regressione ponderata.

La regressione ponderata assegna un peso a ciascun punto dati in base alla varianza del relativo valore adattato. In sostanza, ciò attribuisce pesi bassi ai punti dati che presentano varianze più elevate, riducendo i loro quadrati residui.

Quando vengono utilizzati i pesi appropriati, la regressione ponderata può eliminare il problema dell’eteroschedasticità.

Risorse addizionali

Come eseguire la regressione lineare multipla in R
Come eseguire il test di White in R
Come eseguire un test di Breusch-Pagan in R

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *