Come interpretare l'r quadrato corretto (con esempi)
Quando adattiamo i modelli di regressione lineare, spesso calcoliamo il valore R quadrato del modello.
Il valore R quadrato è la proporzione della varianza nella variabile di risposta che può essere spiegata dalle variabili predittive nel modello.
Il valore di R al quadrato può variare da 0 a 1 dove:
- Un valore pari a 0 indica che la variabile di risposta non può essere spiegata affatto dalle variabili predittive.
- Un valore pari a 1 indica che la variabile di risposta può essere perfettamente spiegata dalle variabili predittive.
Sebbene questa metrica sia comunemente utilizzata per valutare quanto bene un modello di regressione si adatta a un set di dati, presenta un grave inconveniente:
Lo svantaggio di R-quadrato:
L’R quadrato aumenterà sempre quando una nuova variabile predittiva viene aggiunta al modello di regressione.
Anche se una nuova variabile predittrice non ha quasi alcuna relazione con la variabile di risposta, il valore R quadrato del modello aumenterà, anche se solo di una piccola quantità.
Per questo motivo, è possibile che un modello di regressione con un numero elevato di variabili predittive abbia un valore R quadrato elevato, anche se il modello non si adatta bene ai dati.
Fortunatamente, esiste un’alternativa all’R quadrato chiamata R quadrato aggiustato .
R-quadrato rettificato è una versione modificata di R-quadrato che regola il numero di predittori in un modello di regressione.
Viene calcolato come segue:
R 2 corretto = 1 – [(1-R 2 )*(n-1)/(nk-1)]
Oro:
- R 2 : La R 2 del modello
- n : il numero di osservazioni
- k : il numero di variabili predittive
Poiché R al quadrato aumenta sempre man mano che si aggiungono predittori a un modello, l’R al quadrato rettificato può dirti quanto è utile un modello, aggiustato per il numero di predittori in un modello .
Il vantaggio dell’R quadrato corretto:
L’R quadrato corretto ci dice quanto bene un insieme di variabili predittive è in grado di spiegare la variazione nella variabile di risposta, corretta per il numero di predittori in un modello .
A causa del modo in cui viene calcolato, l’R quadrato corretto può essere utilizzato per confrontare l’adattamento dei modelli di regressione con numeri diversi di variabili predittive.
Per comprendere meglio l’R quadrato corretto, vedere l’esempio seguente.
Esempio: comprensione dell’R quadrato corretto nei modelli di regressione
Supponiamo che un professore raccolga dati sugli studenti della sua classe e adatti il seguente modello di regressione per capire come le ore trascorse a studiare e il voto attuale in classe influiscono sul voto che uno studente riceve all’esame finale.
Punteggio esame = β 0 + β 1 (ore trascorse a studiare) + β 2 (voto attuale)
Supponiamo che questo modello di regressione abbia le seguenti metriche:
- R al quadrato: 0,955
- R quadrato corretto: 0,946
Supponiamo ora che l’insegnante decida di raccogliere dati su un’altra variabile per ogni studente: il numero di scarpe.
Anche se questa variabile non dovrebbe avere alcuna relazione con il voto dell’esame finale, decide di adattare il seguente modello di regressione:
Punteggio esame = β 0 + β 1 (ore dedicate allo studio) + β 2 (anno in corso) + β 3 (numero di scarpe)
Supponiamo che questo modello di regressione abbia le seguenti metriche:
- R al quadrato: 0,965
- R quadrato corretto: 0,902
Se guardassimo solo i valori di R al quadrato per ciascuno di questi due modelli di regressione, concluderemmo che è meglio utilizzare il secondo modello perché ha un valore di R al quadrato più alto!
Tuttavia, se osserviamo i valori di R al quadrato aggiustati , arriviamo a una conclusione diversa: è meglio utilizzare il primo modello perché ha un valore di R al quadrato aggiustato più alto.
Il secondo modello ha solo un valore R quadrato più alto perché ha più variabili predittive rispetto al primo modello.
Tuttavia, la variabile predittiva che abbiamo aggiunto (misura della scarpa) era un cattivo predittore del punteggio dell’esame finale, quindi il valore R quadrato corretto ha penalizzato il modello per l’aggiunta di questa variabile predittiva.
Questo esempio illustra perché l’R quadrato corretto è una metrica migliore da utilizzare quando si confronta l’adattamento dei modelli di regressione con numeri diversi di variabili predittive.
Risorse addizionali
I seguenti tutorial spiegano come calcolare i valori R quadrati corretti utilizzando diversi software statistici:
Come calcolare l’R quadrato corretto in R
Come calcolare l’R quadrato corretto in Excel
Come calcolare l’R quadrato corretto in Python