Coefficienti di regressione standardizzati e non standardizzati


La regressione lineare multipla è un modo utile per quantificare la relazione tra due o più variabili predittive e una variabile di risposta .

In genere, quando eseguiamo una regressione lineare multipla, i coefficienti di regressione risultanti non sono standardizzati , nel senso che utilizzano i dati grezzi per trovare la linea più adatta.

Tuttavia, quando le variabili predittive vengono misurate su scale radicalmente diverse, può essere utile eseguire una regressione lineare multipla utilizzando dati standardizzati, ottenendo coefficienti standardizzati .

Per aiutarti a comprendere questa idea, facciamo un semplice esempio.

Esempio: coefficienti di regressione standardizzati e non standardizzati

Supponiamo di avere il seguente set di dati contenente informazioni sull’età, la metratura e il prezzo di vendita di 12 case:

Supponiamo quindi di eseguire una regressione lineare multipla, utilizzando l’età e la metratura come variabili predittive e il prezzo come variabile di risposta.

Ecco il risultato della regressione :

Esempio di coefficienti di regressione non standardizzati

I coefficienti di regressione in questa tabella non sono standardizzati , nel senso che hanno utilizzato i dati grezzi per adattarsi a questo modello di regressione. A prima vista, sembra che l’età abbia un effetto molto maggiore sul prezzo degli immobili poiché il suo coefficiente nella tabella di regressione è -409.833 , rispetto a solo 100.866 per la metratura variabile del predittore.

Tuttavia, l’errore standard è molto maggiore per l’età che per la metratura, motivo per cui il valore p corrispondente è in realtà grande per l’età (p = 0,520) e piccolo per la metratura (p = 0,000).

La ragione delle differenze estreme nei coefficienti di regressione è dovuta alle differenze estreme nelle scale per le due variabili:

  • I valori per l’età vanno da 4 a 44 anni.
  • I valori di metratura vanno da 1.200 a 2.800.

Supponiamo invece di normalizzare i dati grezzi originali convertendo ciascun valore dei dati originali in un punteggio z:

Standardizzare i dati in Excel

Se poi eseguiamo una regressione lineare multipla utilizzando i dati standardizzati, otterremo il seguente risultato di regressione:

Coefficienti di regressione standardizzati

I coefficienti di regressione in questa tabella sono standardizzati , nel senso che hanno utilizzato dati standardizzati per adattarsi a questo modello di regressione. Il modo di interpretare i coefficienti nella tabella è il seguente:

  • Un aumento di una deviazione standard dell’età è associato a una diminuzione della deviazione standard di 0,092 nel prezzo delle case, assumendo che la metratura rimanga costante.
  • Un aumento di una deviazione standard della metratura è associato a un aumento di 0,885 deviazione standard del prezzo delle case, presupponendo che l’età rimanga costante.

Possiamo immediatamente vedere che la metratura ha un effetto molto maggiore sui prezzi degli immobili rispetto all’età. Si noti inoltre che i valori p per ciascuna variabile predittrice sono esattamente gli stessi del modello di regressione precedente.

Correlato: Come calcolare i punteggi Z in Excel

Quando utilizzare coefficienti di regressione standardizzati o non standardizzati

Sia i coefficienti di regressione standardizzati che quelli non standardizzati possono essere utili a seconda della situazione. Particolarmente:

I coefficienti di regressione non standardizzati sono utili quando si desidera interpretare l’effetto che una modifica di un’unità in una variabile predittore ha su una variabile di risposta. Nell’esempio sopra, potremmo utilizzare i coefficienti di regressione non standardizzati della prima regressione per comprendere l’esatta relazione tra le variabili predittive e la variabile di risposta:

  • Un aumento di un’unità dell’età è stato associato a una diminuzione media di 409 dollari nel prezzo delle case, assumendo che la metratura rimanesse costante. Questo coefficiente si è rivelato non statisticamente significativo (p=0,520).
  • Un aumento di un’unità di metratura è stato associato a un aumento medio di 100 dollari nei prezzi delle case, assumendo che l’età rimanesse costante. Anche questo coefficiente è risultato statisticamente significativo (p=0,000).

I coefficienti di regressione standardizzati sono utili quando si desidera confrontare l’effetto di diverse variabili predittive su una variabile di risposta. Poiché ogni variabile è standardizzata, puoi vedere quale variabile ha l’effetto maggiore sulla variabile di risposta.

Lo svantaggio dei coefficienti di regressione standardizzati è che sono un po’ più difficili da interpretare. Ad esempio, è più facile comprendere l’effetto di un aumento di un’unità di età sul prezzo degli immobili piuttosto che l’effetto di un aumento di una deviazione standard sul prezzo degli immobili.

Risorse addizionali

Come leggere e interpretare una tabella di regressione
Come interpretare i coefficienti di regressione
Come eseguire la regressione lineare multipla in Excel

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *