Qual è un buon valore r quadrato?
L’R quadrato misura quanto bene un modello di regressione lineare “si adatta” a un set di dati. Chiamato comunemente anche coefficiente di determinazione , l’R quadrato è la proporzione della varianza nella variabile di risposta che può essere spiegata dalla variabile predittrice.
Il valore R quadrato può variare da 0 a 1. Un valore pari a 0 indica che la variabile di risposta non può essere spiegata affatto dalla variabile predittore. Un valore pari a 1 indica che la variabile di risposta può essere spiegata perfettamente senza errori dalla variabile predittore.
In pratica, probabilmente non vedrai mai un valore pari a 0 o 1 per R al quadrato. Invece, probabilmente incontrerai un valore compreso tra 0 e 1.
Ad esempio, supponiamo di avere un set di dati contenente la dimensione della popolazione e il numero di fioristi in 30 città diverse. Si adatta un semplice modello di regressione lineare al set di dati, utilizzando la dimensione della popolazione come variabile predittiva e i fioristi come variabile di risposta. Nel risultato della regressione vedi che R 2 = 0,2. Ciò indica che il 20% della variazione nel numero di fioristi può essere spiegato dalla dimensione della popolazione.
Questo ci porta a una domanda importante: è questo un valore “buono” per R al quadrato?
La risposta a questa domanda dipende dal tuo obiettivo per il modello di regressione. Sapere:
1. Vorresti spiegare la relazione tra il/i predittore/i e la variabile di risposta?
ORO
2. Vuoi prevedere la variabile di risposta?
A seconda dell’obiettivo, la risposta alla domanda “Qual è un buon valore per R al quadrato?” ” sarà diverso.
Spiegare la relazione tra il/i predittore/i e la variabile di risposta
Se l’obiettivo principale del modello di regressione è spiegare la relazione tra i predittori e la variabile di risposta, l’R quadrato è praticamente irrilevante.
Ad esempio, supponiamo che nell’esempio di regressione riportato sopra si veda che il coefficiente della dimensione prevista della popolazione è 0,005 ed è statisticamente significativo. Ciò significa che un aumento di uno della popolazione è associato a un aumento medio di 0,005 del numero di fioristi in una determinata città. Inoltre, la dimensione della popolazione è un indicatore statisticamente significativo del numero di fioristi in una città.
Il fatto che il valore R quadrato di questo modello di regressione sia 0,2 o 0,9 non cambia questa interpretazione. Poiché sei interessato semplicemente alla relazione tra la dimensione della popolazione e il numero di fioristi, non devi preoccuparti troppo del valore R quadrato del modello.
Prevedere la variabile di risposta
Se il tuo obiettivo principale è prevedere con precisione il valore della variabile di risposta utilizzando la variabile predittrice, l’R quadrato è importante.
In generale, maggiore è il valore R quadrato, maggiore è la precisione con cui le variabili predittive sono in grado di prevedere il valore della variabile di risposta.
Il valore richiesto per il valore R quadrato dipende dalla precisione necessaria. Ad esempio, negli studi scientifici, potrebbe essere necessario che l’R quadrato sia maggiore di 0,95 affinché un modello di regressione sia considerato affidabile. In altre aree, un R quadrato di appena 0,3 può essere sufficiente in caso di estrema variabilità nel set di dati.
Per sapere cosa è considerato un valore R quadrato “buono”, dovrai esplorare quali valori R quadrato sono generalmente accettati nel tuo particolare campo di studi. Se stai eseguendo un’analisi di regressione per un cliente o un’azienda, potresti essere in grado di chiedere loro quale sia considerato un valore R quadrato accettabile.
Intervalli di previsione
Un intervallo di previsione specifica un intervallo entro il quale potrebbe rientrare una nuova osservazione, in base ai valori delle variabili predittive. Intervalli di previsione più ristretti indicano che le variabili predittive possono prevedere la variabile di risposta in modo più accurato.
Spesso un intervallo di previsione può essere più utile di un valore R quadrato perché fornisce un intervallo esatto di valori entro il quale potrebbe rientrare una nuova osservazione. Ciò è particolarmente utile se l’obiettivo principale della regressione è prevedere nuovi valori della variabile di risposta.
Ad esempio, supponiamo che una popolazione di 40.000 produca un intervallo di previsione compreso tra 30 e 35 fioristi in una determinata città. Questo può o meno essere considerato un intervallo di valori accettabile, a seconda dell’uso del modello di regressione.
Conclusione
In generale, maggiore è il valore R quadrato, maggiore è la precisione con cui le variabili predittive sono in grado di prevedere il valore della variabile di risposta.
Quanto deve essere buono un valore R quadrato per essere considerato “buono” varia a seconda del dominio. Alcuni campi richiedono una precisione maggiore rispetto ad altri.
Per scoprire cosa è considerato un valore R quadrato “buono”, considera ciò che è generalmente accettato nel campo in cui lavori, chiedi a qualcuno con conoscenze specifiche in un campo specifico o chiedi al cliente/cliente. società per la quale si sta eseguendo l’analisi di regressione. per ciò che ritengono accettabile.
Se si vuole spiegare la relazione tra il predittore e la variabile di risposta, l’R quadrato è in gran parte irrilevante perché non ha alcun impatto sull’interpretazione del modello di regressione.
Se si desidera prevedere la variabile di risposta, gli intervalli di previsione sono generalmente più utili dei valori R quadrato.
Ulteriori letture:
Coefficiente di correlazione di Pearson
Introduzione alla regressione lineare semplice