Linea di regressione

Questo articolo spiega cos’è la retta di regressione nelle statistiche. Troverai quindi come calcolare la retta di regressione tra due variabili, un esercizio risolto e, inoltre, un calcolatore online per calcolare la retta di regressione per qualsiasi campione di dati.

Qual è la retta di regressione?

In statistica, la retta di regressione è la retta ottenuta da un modello di regressione lineare semplice . Più precisamente, la retta di regressione è la retta che meglio si adatta ad un grafico a dispersione e, quindi, descrive meglio un insieme di dati statistici.

Pertanto, l’equazione della retta di regressione mette in relazione matematicamente la variabile indipendente X e la variabile dipendente Y di un insieme di dati. Sebbene la retta di regressione generalmente non sia in grado di determinare con precisione il valore di ciascuna osservazione, può tuttavia fornirne un’approssimazione.

retta di regressione

Come puoi vedere nel grafico precedente, la linea di regressione ci aiuta a vedere l’andamento di un set di dati e che tipo di relazione esiste tra la variabile indipendente e la variabile dipendente. Di seguito esamineremo le applicazioni della retta di regressione.

Formula della retta di regressione

Ora che conosciamo la definizione di retta di regressione, vediamo come calcolare l’equazione della retta di un modello di regressione lineare.

Come ogni retta, l’equazione della retta di regressione è composta da una costante (b 0 ) e da una pendenza (b 1 ):

y=b_0+b_1x

Pertanto, le formule per il calcolo dei coefficienti della retta di regressione lineare sono le seguenti:

\begin{array}{c}b_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]b_0=\overline{y}-b_1\overline{x}\end{array}

Oro:

  • b_0

    è la costante della retta di regressione.

  • b_1

    è la pendenza della retta di regressione.

  • x_i

    è il valore della variabile indipendente X dei dati i.

  • y_i

    è il valore della variabile dipendente Y dei dati i.

  • \overline{x}

    è la media dei valori della variabile indipendente

  • \overline{y}

    è la media dei valori della variabile dipendente Y.

👉 Puoi utilizzare la calcolatrice qui sotto per calcolare la linea di regressione per qualsiasi set di dati.

Esempio concreto della retta di regressione

Per esplorare ulteriormente il concetto di linea di regressione, di seguito è riportato un esempio pratico di come creare una linea di regressione.

  • Dopo aver sostenuto un esame di statistica, a cinque studenti è stato chiesto quante ore di studio avevano dedicato all’esame, i dati sono riportati nella tabella seguente. Calcolare la retta di regressione dai dati statistici raccolti per mettere in relazione linearmente le ore di studio con il voto ottenuto. Successivamente, determina quale voto otterrà uno studente che ha studiato 8 ore.

Per trovare la retta di regressione per i dati del campione, dobbiamo determinare i coefficienti b 0 e b 1 dell’equazione e, per fare ciò, dobbiamo utilizzare le formule viste nella sezione precedente.

Tuttavia, per applicare le formule per la retta di regressione lineare, dobbiamo prima calcolare la media della variabile indipendente e la media della variabile dipendente:

\begin{array}{c}\overline{x}=\cfrac{11+5+10+12+7}{5}=9\\[4ex]\overline{y}=\cfrac{7+4+5+8+6}{5}=6\end{array}

Ora che conosciamo le medie delle variabili, calcoliamo il coefficiente b 1 del modello utilizzando la formula corrispondente:

\begin{array}{c}b_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[10ex] b_1=\cfrac{\begin{array}{c}(11-9)(7-6)+(5-9)(4-6)+(10-9)(5-6)+\\+(12-9)(8-6)+(7-9)(6-6)\end{array}}{(11-9)^2+(5-9)^2+(10-9)^2+(12-9)^2+(7-9)^2}\\[6ex]b_1=0,4412\end{array}

Infine, calcoliamo il coefficiente b 0 del modello utilizzando la formula corrispondente:

\begin{array}{l}b_0=\overline{y}-b_1\overline{x}\\[3ex]b_0=6-0,4412\cdot 9 \\[3ex]b_0=2,0294\end{array}

In breve, l’equazione della retta di regressione lineare del problema è la seguente:

y=2,0294+0,4412x

Di seguito è possibile vedere la rappresentazione grafica dei dati campione nonché la retta del modello di regressione lineare semplice:

esempio di retta di regressione lineare

Una volta calcolata la retta di regressione, per prevedere il voto che otterrà uno studente che ha studiato 8 ore, è sufficiente sostituire questo valore nell’equazione della retta di regressione ottenuta:

y=2,0294+0,4412\cdot 8=5,56

Pertanto, secondo il modello di regressione lineare effettuato, se uno studente ha studiato per otto ore, otterrà all’esame un punteggio di 5,56.

A cosa serve una retta di regressione?

Principalmente, la retta di regressione ha due usi: la retta di regressione viene utilizzata per determinare quale tipo di relazione esiste tra due variabili e, d’altro canto, la retta di regressione consente anche di fare una previsione sul valore di una nuova osservazione.

La pendenza della retta di regressione ci dice qual è la correlazione tra la variabile indipendente e la variabile dipendente. Se la pendenza è positiva significa che la variabile dipendente è direttamente proporzionale alla variabile indipendente, mentre se la pendenza è negativa implica che le variabili sono inversamente proporzionali. Infine, se il coefficiente di pendenza è molto vicino allo zero, ciò significa che la correlazione tra le due variabili è molto debole.

Inoltre, se l’equazione della retta di regressione è nota, il valore della variabile dipendente può essere previsto per un nuovo valore della variabile indipendente, come abbiamo fatto nell’esempio precedente. Pertanto, quanto migliore è l’adattamento della retta di regressione, tanto migliori saranno le previsioni che farà.

Calcolatore della linea di regressione

Inserisci un campione di dati nella seguente calcolatrice per calcolare la linea di regressione tra le due variabili. È necessario separare le coppie di dati, in modo che nella prima casella ci siano solo i valori della variabile indipendente X e nella seconda casella ci siano solo i valori della variabile dipendente Y.

I dati devono essere separati da uno spazio e inseriti utilizzando il punto come separatore decimale.

  • Variabile indipendente

  • Variabile dipendente Y:

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *