Come determinare le variabili significative nei modelli di regressione
Una delle domande principali che ti porrai dopo aver adattato un modello di regressione lineare multipla è: quali variabili sono significative?
Esistono due metodi da non utilizzare per determinare il significato di una variabile:
1. Il valore dei coefficienti di regressione
Un coefficiente di regressione per una determinata variabile predittiva indica la variazione media nella variabile di risposta associata a un aumento di un’unità in quella variabile predittiva.
Tuttavia, ciascuna variabile predittiva in un modello viene solitamente misurata su una scala diversa. Non ha quindi senso confrontare i valori assoluti dei coefficienti di regressione per determinare quali variabili siano più importanti.
2. I valori p dei coefficienti di regressione
I valori p dei coefficienti di regressione possono dirti se una determinata variabile predittiva ha un’associazione statisticamente significativa con la variabile di risposta, ma non possono dirti se una determinata variabile predittiva è praticamente significativa nel mondo reale.
I valori P possono anche essere bassi a causa di un campione di grandi dimensioni o di una bassa variabilità, che in realtà non ci dice se una determinata variabile predittrice sia significativa o meno nella pratica.
Tuttavia, ci sono due metodi da utilizzare per determinare il significato delle variabili:
1. Coefficienti di regressione standardizzati
In genere, quando eseguiamo una regressione lineare multipla, i coefficienti di regressione risultanti nell’output del modello non sono standardizzati , nel senso che utilizzano i dati grezzi per trovare la linea più adatta.
Tuttavia, è possibile standardizzare ciascuna variabile predittore e la variabile di risposta (sottraendo il valore medio di ciascuna variabile dai valori originali e poi dividendolo per la deviazione standard delle variabili) e quindi eseguire una regressione, che risulta in coefficienti di regressione standardizzati .
Standardizzando ciascuna variabile nel modello, ciascuna variabile viene misurata sulla stessa scala. Ha senso quindi confrontare i valori assoluti dei coefficienti di regressione nei risultati per capire quali variabili influiscono maggiormente sulla variabile di risposta.
2. Competenza in materia
Sebbene i valori p possano dirti se esiste un effetto statisticamente significativo tra una determinata variabile predittiva e la variabile di risposta, è necessaria esperienza in materia per confermare se una variabile predittiva è effettivamente rilevante e dovrebbe effettivamente essere inclusa in un modello.
L’esempio seguente mostra come determinare nella pratica le variabili significative in un modello di regressione.
Esempio: come determinare le variabili significative in un modello di regressione
Supponiamo di avere il seguente set di dati contenente informazioni sull’età, la metratura e il prezzo di vendita di 12 case:
Supponiamo quindi di eseguire una regressione lineare multipla, utilizzando l’età e la metratura come variabili predittive e il prezzo come variabile di risposta.
Riceviamo il seguente risultato:
I coefficienti di regressione in questa tabella non sono standardizzati , nel senso che hanno utilizzato i dati grezzi per adattarsi a questo modello di regressione.
A prima vista, sembra che l’età abbia un effetto molto maggiore sul prezzo degli immobili poiché il suo coefficiente nella tabella di regressione è -409.833 , rispetto a solo 100.866 per la metratura variabile del predittore.
Tuttavia, l’errore standard è molto maggiore per l’età che per la metratura, motivo per cui il valore p corrispondente è in realtà grande per l’età (p = 0,520) e piccolo per la metratura (p = 0,000).
La ragione delle differenze estreme nei coefficienti di regressione è dovuta alle differenze estreme nelle scale per le due variabili:
- I valori per l’età vanno da 4 a 44 anni.
- I valori di metratura vanno da 1.200 a 2.800.
Supponiamo invece di normalizzare i dati grezzi:
Se poi eseguiamo una regressione lineare multipla utilizzando i dati standardizzati, otterremo il seguente risultato di regressione:
I coefficienti di regressione in questa tabella sono standardizzati , nel senso che hanno utilizzato dati standardizzati per adattarsi a questo modello di regressione.
Il modo di interpretare i coefficienti nella tabella è il seguente:
- Un aumento di una deviazione standard dell’età è associato a una diminuzione della deviazione standard di 0,092 nel prezzo delle case, assumendo che la metratura rimanga costante.
- Un aumento di una deviazione standard della metratura è associato a un aumento di 0,885 deviazione standard del prezzo delle case, presupponendo che l’età rimanga costante.
Ora possiamo vedere che la metratura ha un effetto molto maggiore sui prezzi delle case rispetto all’età.
Nota : i valori p per ciascuna variabile predittrice sono esattamente gli stessi del modello di regressione precedente.
Al momento di decidere quale modello finale utilizzare, ora sappiamo che la metratura è molto più importante per prevedere il prezzo di una casa rispetto alla sua età .
In definitiva, dovremo utilizzare la nostra esperienza in materia per determinare quali variabili includere nel modello finale, sulla base delle conoscenze esistenti sui prezzi delle case e degli immobili.
Risorse addizionali
Le esercitazioni seguenti forniscono informazioni aggiuntive sui modelli di regressione:
Come leggere e interpretare una tabella di regressione
Come interpretare i coefficienti di regressione
Come interpretare i valori P nella regressione lineare