R vs r-square: qual è la differenza?


Due termini che gli studenti spesso confondono in statistica sono R e R al quadrato , spesso scritti R2 .

Nel contesto di una regressione lineare semplice :

  • R: La correlazione tra la variabile predittore, x, e la variabile di risposta, y.
  • R 2 : Proporzione della varianza nella variabile di risposta che può essere spiegata dalla variabile predittrice nel modello di regressione.

E nel contesto di una regressione lineare multipla :

  • A: La correlazione tra i valori osservati della variabile di risposta e i valori previsti della variabile di risposta realizzati dal modello.
  • R 2 : Proporzione della varianza della variabile di risposta che può essere spiegata dalle variabili predittive del modello di regressione.

Si noti che il valore di R 2 è compreso tra 0 e 1. Quanto più il valore è vicino a 1, tanto più forte è la relazione tra le variabili predittive e la variabile di risposta.

Gli esempi seguenti mostrano come interpretare i valori R e R quadrato nei modelli di regressione lineare semplice e di regressione lineare multipla.

Esempio 1: regressione lineare semplice

Supponiamo di avere il seguente set di dati che mostra le ore studiate e i punteggi degli esami ottenuti da 12 studenti in un determinato corso di matematica:

Utilizzando software statistico (come Excel, R, Python, SPSS, ecc.), possiamo adattare un semplice modello di regressione lineare utilizzando le “ore di studio” come variabile predittrice e il “voto dell’esame” come variabile di risposta .

Possiamo trovare il seguente output per questo modello:

Ecco come interpretare i valori R e R al quadrato di questo modello:

  • R: La correlazione tra le ore studiate e il punteggio dell’esame è 0,959 .
  • R 2 : L’R quadrato per questo modello di regressione è 0,920 . Questo ci dice che il 92,0% della variazione dei punteggi degli esami può essere spiegato dal numero di ore studiate.

Si noti inoltre che il valore R 2 è semplicemente uguale al valore R, al quadrato:

R2 = R * R = 0,959 * 0,959 = 0,920

Esempio 2: Regressione lineare multipla

Supponiamo di avere il seguente set di dati che mostra le ore studiate, il voto attuale dello studente e il voto dell’esame ottenuto da 12 studenti in un determinato corso di matematica:

Utilizzando un software statistico, possiamo adattare un modello di regressione lineare multipla utilizzando “ore di studio” e “voto attuale” come variabili predittive e “voto di esame” come variabile di risposta.

Possiamo trovare il seguente output per questo modello:

Ecco come interpretare i valori R e R al quadrato di questo modello:

  • R: La correlazione tra i punteggi effettivi dei test e i punteggi dei test previsti dal modello è 0,978 .
  • R 2 : L’R quadrato per questo modello di regressione è 0,956 . Questo ci dice che il 95,6% della variazione dei punteggi degli esami può essere spiegata dal numero di ore studiate e dal voto attuale dello studente nella classe.

Si noti inoltre che il valore R 2 è semplicemente uguale al valore R, al quadrato:

R2 = R * R = 0,978 * 0,978 = 0,956

Risorse addizionali

Qual è un buon valore di R quadrato?
Una guida delicata alla somma dei quadrati: SST, SSR, SSE

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *