Come fare previsioni con la regressione lineare
La regressione lineare è un metodo che possiamo utilizzare per quantificare la relazione tra una o più variabili predittive e una variabile di risposta .
Uno dei motivi più comuni per adattare un modello di regressione è utilizzare il modello per prevedere i valori di nuove osservazioni.
Usiamo i seguenti passaggi per fare previsioni con un modello di regressione:
- Passaggio 1: raccogliere i dati.
- Passaggio 2: adattare un modello di regressione ai dati.
- Passaggio 3: verificare che il modello si adatti ai dati.
- Passaggio 4: utilizzare l’equazione di regressione adattata per prevedere i valori delle nuove osservazioni.
Gli esempi seguenti mostrano come utilizzare i modelli di regressione per effettuare previsioni.
Esempio 1: fare previsioni con un semplice modello di regressione lineare
Supponiamo che un medico raccolga dati sull’altezza (in pollici) e sul peso (in libbre) di 50 pazienti.
Quindi adatta un semplice modello di regressione lineare utilizzando il “peso” come variabile predittrice e l'”altezza” come variabile di risposta.
L’equazione di regressione adattata è:
Taglia = 32,7830 + 0,2001*(peso)
Dopo aver verificato che le ipotesi del modello di regressione lineare sono soddisfatte, il medico conclude che il modello si adatta bene ai dati.
Può quindi utilizzare il modello per prevedere l’altezza di nuovi pazienti in base al loro peso.
Ad esempio, supponiamo che un nuovo paziente pesi 170 libbre. Utilizzando il modello, prevediamo che questo paziente avrebbe un’altezza di 66,8 pollici:
Altezza = 32,7830 + 0,2001*(170) = 66,8 pollici
Esempio 2: fare previsioni con un modello di regressione lineare multipla
Si presuppone che un economista raccolga dati sugli anni totali di istruzione, sulle ore settimanali lavorate e sul reddito annuo di 30 persone.
Quindi adatta un modello di regressione lineare multipla utilizzando “anni totali di istruzione” e “ore settimanali lavorate” come variabile predittiva e “reddito annuo” come variabile di risposta.
L’equazione di regressione adattata è:
Reddito = 1.342,29 + 3.324,33*(anni di scuola) + 765,88*(ore settimanali lavorate)
Dopo aver verificato che le ipotesi del modello di regressione lineare sono soddisfatte, l’economista conclude che il modello si adatta bene ai dati.
Può quindi utilizzare il modello per prevedere il reddito annuale di un nuovo individuo in base agli anni totali di istruzione e alle ore settimanali lavorate.
Ad esempio, supponiamo che un nuovo individuo abbia 16 anni di istruzione in totale e lavori in media 40 ore settimanali. Utilizzando il modello, prevediamo che questa persona avrà un reddito annuo di $ 85.166,77:
Reddito = 1.342,29 + 3.324,33*(16) + 765,88*(45) = $ 85.166,77
Sull’uso degli intervalli di confidenza
Quando utilizzi un modello di regressione per fare previsioni su nuove osservazioni, il valore previsto dal modello di regressione viene chiamato stima puntuale .
Sebbene la stima puntuale rappresenti la nostra migliore stima del valore della nuova osservazione, è improbabile che corrisponda esattamente al valore della nuova osservazione.
Quindi, per catturare questa incertezza, possiamo creare un intervallo di confidenza – un intervallo di valori che probabilmente conterrà un parametro della popolazione con un certo livello di confidenza.
Ad esempio, invece di prevedere che un nuovo individuo sarà alto 66,8 pollici, possiamo creare il seguente intervallo di confidenza:
Intervallo di confidenza al 95% = [64,8 pollici, 68,8 pollici]
Interpreteremmo questo intervallo nel senso che siamo sicuri al 95% che l’altezza effettiva di questo individuo sia compresa tra 64,8 pollici e 68,8 pollici.
Precauzioni da prendere quando si fanno previsioni
Tieni presente i seguenti punti quando utilizzi un modello di regressione per fare previsioni:
1. Utilizzare il modello solo per fare previsioni all’interno dell’intervallo di dati utilizzati per stimare il modello di regressione.
Ad esempio, supponiamo di adattare un modello di regressione utilizzando la variabile predittiva “peso” e che il peso degli individui nel campione utilizzato per stimare il modello fosse compreso tra 120 e 180 libbre.
Non sarebbe valido utilizzare il modello per stimare l’altezza di un individuo che pesa 200 libbre, poiché è al di fuori dell’intervallo della variabile predittiva utilizzata per stimare il modello.
È possibile che la relazione tra peso e altezza sia diversa al di fuori dell’intervallo compreso tra 120 e 180 libbre. Non dovremmo quindi utilizzare il modello per stimare l’altezza di un individuo che pesa 200 libbre.
2. Utilizza il modello solo per fare previsioni per la popolazione campionata.
Ad esempio, supponiamo che un economista estragga la popolazione da un campione di tutte le persone che vivono in una particolare città.
Dovremmo utilizzare il modello di regressione adattato solo per prevedere il reddito annuo degli individui in questa città poiché l’intero campione utilizzato per adattare il modello viveva in questa città.
Risorse addizionali
Introduzione alla regressione lineare semplice
Introduzione alla regressione lineare multipla
Introduzione agli intervalli di confidenza
Le quattro ipotesi della regressione lineare