Come calcolare i residui nell'analisi di regressione


La regressione lineare semplice è un metodo statistico che è possibile utilizzare per comprendere la relazione tra due variabili x e y.

Una variabile, x , è nota come variabile predittrice. L’altra variabile, y , è nota come variabile di risposta .

Ad esempio, supponiamo di avere il seguente set di dati con il peso e l’altezza di sette individui:

Regressione lineare semplice

Sia il peso la variabile predittrice e l’ altezza la variabile di risposta.

Se rappresentiamo graficamente queste due variabili utilizzando un grafico a dispersione , con il peso sull’asse x e l’altezza sull’asse y, ecco come apparirebbe:

Dal grafico a dispersione possiamo vedere chiaramente che all’aumentare del peso, anche l’altezza tende ad aumentare, ma per quantificare effettivamente questa relazione tra peso e altezza dobbiamo utilizzare la regressione lineare.

Utilizzando la regressione lineare, possiamo trovare la linea che meglio “si adatta” ai nostri dati:

La formula per questa linea di miglior adattamento è scritta:

ŷ = b 0 + b 1 x

dove ŷ è il valore previsto della variabile di risposta, b 0 è l’intercetta, b 1 è il coefficiente di regressione e x è il valore della variabile predittrice.

In questo esempio, la linea più adatta è:

dimensione = 32,783 + 0,2001*(peso)

Come calcolare i residui

Tieni presente che i punti dati nel nostro grafico a dispersione non sempre corrispondono esattamente alla linea di adattamento migliore:

Questa differenza tra il punto dati e la linea è chiamata residuo . Per ciascun punto dati, possiamo calcolare il residuo di quel punto prendendo la differenza tra il suo valore reale e il valore previsto dalla linea di adattamento migliore.

Esempio 1: Calcolo di un residuo

Ad esempio, ricorda il peso e l’altezza dei sette individui nel nostro set di dati:

Regressione lineare semplice

Il primo individuo pesa 140 libbre. e un’altezza di 60 pollici.

Per scoprire l’altezza prevista di questo individuo, possiamo inserire il suo peso nella linea dell’equazione di migliore adattamento:

dimensione = 32,783 + 0,2001*(peso)

Pertanto, la dimensione prevista di questo individuo è:

altezza = 32,783 + 0,2001*(140)

altezza = 60,797 pollici

Pertanto, il residuo per questo punto dati è 60 – 60.797 = -0.797 .

Esempio 2: Calcolo di un residuo

Possiamo utilizzare esattamente lo stesso processo utilizzato sopra per calcolare il residuo per ciascun punto dati. Ad esempio, calcoliamo il residuo per il secondo individuo nel nostro set di dati:

Regressione lineare semplice

Il secondo individuo pesa 155 libbre. e un’altezza di 62 pollici.

Per scoprire l’altezza prevista di questo individuo, possiamo inserire il suo peso nella linea dell’equazione di migliore adattamento:

dimensione = 32,783 + 0,2001*(peso)

Pertanto, la dimensione prevista di questo individuo è:

altezza = 32,783 + 0,2001*(155)

altezza = 63,7985 pollici

Quindi il residuo per questo punto dati è 62 – 63.7985 = -1.7985 .

Calcola tutti i residui

Utilizzando lo stesso metodo dei due esempi precedenti, possiamo calcolare i residui per ciascun punto dati:

Si noti che alcuni residui sono positivi e altri negativi. Se sommiamo tutti i residui, il loro totale sarà zero.

Questo perché la regressione lineare trova la linea che minimizza il quadrato totale dei residui, motivo per cui la linea attraversa perfettamente i dati, con alcuni punti dati che si trovano sopra la linea e altri sotto la linea.

Visualizza i residui

Ricordare che un residuo è semplicemente la distanza tra il valore effettivo dei dati e il valore previsto dalla linea di regressione più adatta. Ecco come appaiono visivamente queste distanze su una nuvola di punti:

Si noti che alcuni residui sono più grandi di altri. Inoltre, alcuni residui sono positivi e altri negativi, come accennato in precedenza.

Creazione di un percorso residuo

Lo scopo del calcolo dei residui è vedere quanto bene la linea di regressione si adatta ai dati.

Residui più grandi indicano che la linea di regressione non si adatta bene ai dati, ovvero i dati effettivi non si avvicinano alla linea di regressione.

Residui più piccoli indicano che la linea di regressione si adatta meglio ai dati, ovvero i punti dati effettivi sono più vicini alla linea di regressione.

Un tipo di grafico utile per visualizzare tutti i residui contemporaneamente è il grafico dei residui. Un grafico dei residui è un tipo di grafico che mostra i valori previsti rispetto ai residui per un modello di regressione.

Questo tipo di grafico viene spesso utilizzato per valutare se un modello di regressione lineare è appropriato o meno per un dato set di dati e per verificare l’eteroschedasticità dei residui.

Dai un’occhiata a questo tutorial per scoprire come creare un grafico dei residui per un semplice modello di regressione lineare in Excel.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *