Cosa sono i residui standardizzati?


Un residuo è la differenza tra un valore osservato e un valore previsto in un modello di regressione .

Viene calcolato come segue:

Residuo = Valore osservato – Valore previsto

Se tracciassimo i valori osservati e sovrapponessimo la linea di regressione adattata, i residui per ciascuna osservazione sarebbero la distanza verticale tra l’osservazione e la linea di regressione:

Esempio di residuo in statistica

Un tipo di residuo che utilizziamo spesso per identificare i valori anomali in un modello di regressione è chiamato residuo standardizzato .

Viene calcolato come segue:

r i = e i / s(e i ) = e i / RSE√ 1-h ii

Oro:

  • e i : L’iesimo residuo
  • RSE: errore standard residuo del modello
  • h ii : Il sorgere dell’i -esima osservazione

In pratica, spesso consideriamo come un valore anomalo qualsiasi residuo standardizzato il cui valore assoluto sia maggiore di 3.

Ciò non significa necessariamente che rimuoveremo queste osservazioni dal modello, ma dovremmo almeno studiarle ulteriormente per verificare che non siano il risultato di un errore di inserimento dei dati o di qualche altro evento strano.

Nota: a volte i residui standardizzati sono anche chiamati “residui studiati internamente”.

Esempio: come calcolare i residui standardizzati

Supponiamo di avere il seguente set di dati con 12 osservazioni in totale:

Se utilizziamo software statistico (come R , Excel , Python , Stata , ecc.) per adattare una retta di regressione lineare a questo set di dati, scopriremo che la retta di adattamento migliore risulta essere:

y = 29,63 + 0,7553x

Utilizzando questa linea, possiamo calcolare il valore previsto per ciascun valore Y in base al valore di X. Ad esempio, il valore previsto della prima osservazione sarebbe:

y = 29,63 + 0,7553*(8) = 35,67

Possiamo quindi calcolare il residuo per questa osservazione come segue:

Residuo = Valore osservato – Valore previsto = 41 – 35,67 = 5,33

Possiamo ripetere questo processo per trovare il residuo per ciascuna osservazione:

Come calcolare i residui

Possiamo anche utilizzare un software statistico per scoprire che l’errore standard residuo del modello è 4,44 .

E, anche se va oltre lo scopo di questo tutorial, possiamo usare il software per trovare la statistica della leva finanziaria (h ii ) per ciascuna osservazione:

Possiamo quindi utilizzare la seguente formula per calcolare il residuo standardizzato per ciascuna osservazione:

r io = e io / RSE√ 1-h ii

Ad esempio, il residuo standardizzato per la prima osservazione viene calcolato come segue:

r i = 5,33 / 4,44√ 1-0,27 = 1,404

Possiamo ripetere questo processo per trovare il residuo standardizzato per ciascuna osservazione:

Esempio di calcolo dei residui standardizzati

Possiamo quindi creare un rapido grafico a dispersione dei valori predittivi rispetto ai residui standardizzati per vedere visivamente se qualcuno dei residui standardizzati supera una soglia di valore assoluto pari a 3:

Grafico dei valori predittivi rispetto ai residui standardizzati

Dal grafico possiamo vedere che nessuno dei residui standardizzati supera il valore assoluto di 3. Pertanto, nessuna delle osservazioni sembra essere un valore anomalo.

Va notato che in alcuni casi i ricercatori considerano come valori anomali le osservazioni i cui residui standardizzati superano il valore assoluto di 2.

Dipende da te, a seconda del campo in cui lavori e del problema specifico su cui stai lavorando, se desideri utilizzare un valore assoluto di 2 o 3 come soglia per i valori anomali.

Risorse addizionali

I seguenti tutorial forniscono ulteriori informazioni sui residui standardizzati:

Cosa sono i residui in statistica?
Come calcolare i residui standardizzati in Excel
Come calcolare i residui standardizzati in R
Come calcolare i residui standardizzati in Python

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *