Comprendere l'errore standard di regressione


Quando adattiamo un modello di regressione a un set di dati, spesso siamo interessati a quanto bene il modello di regressione “si adatta” al set di dati. Due parametri comunemente utilizzati per misurare la bontà dell’adattamento includono R al quadrato ( R2 ) e l’ errore standard di regressione , spesso indicato con S.

Questo tutorial spiega come interpretare l’errore standard di regressione (S) e perché può fornire informazioni più utili rispetto a R 2 .

Errore standard rispetto a R quadrato nella regressione

Supponiamo di avere un semplice set di dati che mostra quante ore 12 studenti hanno studiato al giorno per un mese prima di un esame importante, nonché il loro punteggio all’esame:

Se adattiamo un semplice modello di regressione lineare a questo set di dati in Excel, otteniamo il seguente risultato:

R al quadrato è la proporzione della varianza nella variabile di risposta che può essere spiegata dalla variabile predittore. In questo caso, il 65,76% della varianza nei punteggi degli esami può essere spiegato dal numero di ore trascorse a studiare.

L’errore standard di regressione è la distanza media tra i valori osservati e la retta di regressione. In questo caso i valori osservati si discostano in media di 4,89 unità dalla retta di regressione.

Se tracciamo i dati effettivi con la linea di regressione, possiamo vederlo più chiaramente:

Si noti che alcune osservazioni si trovano molto vicine alla retta di regressione, mentre altre no. Ma in media i valori osservati si discostano di 4,19 unità dalla retta di regressione.

L’errore standard di regressione è particolarmente utile perché può essere utilizzato per valutare l’accuratezza delle previsioni. Circa il 95% dell’osservazione dovrebbe rientrare entro +/- due errori standard della regressione, che è una rapida approssimazione di un intervallo di previsione del 95%.

Se vogliamo fare previsioni utilizzando il modello di regressione, l’errore standard della regressione può essere una misura più utile da conoscere rispetto all’R quadrato, perché ci dà un’idea di quanto siano accurate le nostre previsioni in termini di unità.

Per illustrare perché l’errore standard di regressione può essere una misura più utile per valutare l’idoneità di un modello, consideriamo un altro set di dati di esempio che mostra quante ore hanno studiato 12 studenti al giorno per un mese prima di un esame importante, nonché il risultato del loro esame:

Tieni presente che questo è esattamente lo stesso set di dati di prima, tranne per il fatto che tutti i valori s sono dimezzati . Pertanto, gli studenti di questo set di dati hanno studiato esattamente la metà del tempo rispetto agli studenti del set di dati precedente e hanno ricevuto esattamente la metà del voto dell’esame.

Se adattiamo un semplice modello di regressione lineare a questo set di dati in Excel, otteniamo il seguente risultato:

Si noti che l’R quadrato del 65,76% è esattamente lo stesso dell’esempio precedente.

Tuttavia, l’errore standard della regressione è 2.095 , ovvero esattamente la metà dell’errore standard della regressione nell’esempio precedente.

Se tracciamo i dati effettivi con la linea di regressione, possiamo vederlo più chiaramente:

Si noti come le osservazioni siano raggruppate molto più strettamente attorno alla retta di regressione. In media i valori osservati si trovano a 2.095 unità dalla retta di regressione.

Quindi, anche se entrambi i modelli di regressione hanno un R quadrato del 65,76% , sappiamo che il secondo modello fornirebbe previsioni più accurate perché ha un errore standard di regressione inferiore.

I vantaggi dell’utilizzo dell’errore standard

L’errore standard della regressione (S) è spesso più utile da conoscere rispetto all’R quadrato del modello perché ci fornisce le unità effettive. Se vogliamo utilizzare un modello di regressione per produrre previsioni, S può dirci molto facilmente se un modello è sufficientemente accurato da poter essere utilizzato a fini di previsione.

Ad esempio, supponiamo di voler produrre un intervallo di previsione del 95% in cui possiamo prevedere i punteggi degli esami entro 6 punti dal punteggio effettivo.

Il nostro primo modello ha un R quadrato del 65,76%, ma questo non ci dice nulla sull’accuratezza del nostro intervallo di previsione. Per fortuna sappiamo anche che il primo modello ha una S di 4.19. Ciò significa che un intervallo di previsione del 95% sarebbe largo circa 2*4,19 = +/- 8,38 unità, che è troppo ampio per il nostro intervallo di previsione.

Anche il nostro secondo modello ha un R quadrato del 65,76%, ma ancora una volta questo non ci dice nulla sulla precisione del nostro intervallo di previsione. Sappiamo però che il secondo modello ha una S di 2.095. Ciò significa che un intervallo di previsione del 95% sarebbe largo circa 2*2,095 = +/- 4,19 unità, ovvero inferiore a 6 e quindi sufficientemente accurato da poter essere utilizzato per produrre intervalli di previsione.

Ulteriori letture

Introduzione alla regressione lineare semplice
Qual è un buon valore R quadrato?

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *