Equazione di regressione

Questo articolo spiega cos’è un’equazione di regressione e a cosa serve. Allo stesso modo, imparerai come trovare un’equazione di regressione, un esercizio risolto e, infine, un calcolatore online per calcolare l’equazione di regressione per qualsiasi set di dati.

Qual è l’equazione di regressione?

L’ equazione di regressione è l’equazione che meglio si adatta a un dot plot, ovvero l’equazione di regressione è la migliore approssimazione di un insieme di dati.

L’equazione di regressione è della forma y=β 01 x, dove β 0 è la costante dell’equazione e β 1 è la pendenza dell’equazione.

y=\beta_0+\beta_1x

Se guardi l’equazione di regressione, è l’equazione di una linea. Ciò significa che la relazione tra la variabile indipendente X e la variabile dipendente Y è modellata come una relazione lineare, poiché la linea rappresenta una relazione lineare.

Pertanto, l’equazione di regressione ci consente di mettere in relazione matematicamente la variabile indipendente e la variabile dipendente di un set di dati. Sebbene l’equazione di regressione generalmente non sia in grado di determinare con precisione il valore di ciascuna osservazione, viene tuttavia utilizzata per ottenere un’approssimazione del suo valore.

equazione di regressione

Come puoi vedere nel grafico precedente, l’equazione di regressione ci aiuta a vedere l’andamento di un set di dati e che tipo di relazione esiste tra la variabile indipendente e la variabile dipendente.

Come calcolare l’equazione di regressione

Le formule per il calcolo dei coefficienti dell’equazione di regressione lineare semplice sono le seguenti:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

Oro:

  • \beta_0

    è la costante dell’equazione di regressione.

  • \beta_1

    è la pendenza dell’equazione di regressione.

  • x_i

    è il valore della variabile indipendente X dei dati i.

  • y_i

    è il valore della variabile dipendente Y dei dati i.

  • \overline{x}

    è la media dei valori della variabile indipendente

  • \overline{y}

    è la media dei valori della variabile dipendente Y.

Esempio di calcolo dell’equazione di regressione

  • Dopo aver sostenuto un esame di statistica, a cinque studenti è stato chiesto quante ore di studio avevano dedicato all’esame, i dati sono riportati nella tabella seguente. Calcolare l’equazione di regressione a partire dai dati statistici raccolti per mettere in relazione linearmente le ore di studio con il voto ottenuto. Successivamente, determina quale voto otterrà uno studente che ha studiato 8 ore.

Per trovare l’equazione di regressione per i dati del campione, dobbiamo determinare i coefficienti b 0 e b 1 dell’equazione e, per fare ciò, dobbiamo utilizzare le formule viste nella sezione precedente.

Tuttavia, per applicare le formule per l’equazione di regressione lineare, dobbiamo prima calcolare la media della variabile indipendente e la media della variabile dipendente:

\begin{array}{c}\overline{x}=\cfrac{11+5+10+12+7}{5}=9\\[4ex]\overline{y}=\cfrac{7+4+5+8+6}{5}=6\end{array}

Ora che conosciamo le medie delle variabili, calcoliamo il coefficiente β 1 del modello utilizzando la formula corrispondente:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[10ex] \beta_1=\cfrac{\begin{array}{c}(11-9)(7-6)+(5-9)(4-6)+(10-9)(5-6)+\\+(12-9)(8-6)+(7-9)(6-6)\end{array}}{(11-9)^2+(5-9)^2+(10-9)^2+(12-9)^2+(7-9)^2}\\[6ex]\beta_1=0,4412\end{array}

Infine, calcoliamo il coefficiente β 0 del modello utilizzando la formula corrispondente:

\begin{array}{l}\beta_0=\overline{y}-\beta_1\overline{x}\\[3ex]\beta_0=6-0,4412\cdot 9 \\[3ex]\beta_0=2,0294\end{array}

In breve, l’equazione della retta di regressione lineare del problema è la seguente:

y=2,0294+0,4412x

Di seguito è possibile vedere la rappresentazione grafica dei dati campione insieme alla semplice equazione del modello di regressione lineare:

esempio di retta di regressione lineare

Una volta calcolata l’equazione di regressione, per prevedere il voto che otterrà uno studente che ha studiato 8 ore, è sufficiente sostituire questo valore nell’equazione di regressione risultante:

y=2,0294+0,4412\cdot 8=5,56

Pertanto, secondo il modello di regressione lineare effettuato, se uno studente ha studiato per otto ore, otterrà all’esame un punteggio di 5,56.

Calcolatore dell’equazione di regressione

Inserisci un campione di dati nella calcolatrice qui sotto per calcolare l’equazione di regressione. È necessario separare le coppie di dati, in modo che nella prima casella ci siano solo i valori della variabile indipendente X e nella seconda casella ci siano solo i valori della variabile dipendente Y.

I dati devono essere separati da uno spazio e inseriti utilizzando il punto come separatore decimale.

  • Variabile indipendente

  • Variabile dipendente Y:

Equazione di regressione lineare multipla

Abbiamo appena visto cos’è l’equazione di regressione lineare semplice, tuttavia il modello di regressione può anche essere un modello di regressione lineare multipla, che include due o più variabili indipendenti. Pertanto, la regressione lineare multipla consente di collegare linearmente diverse variabili esplicative a una variabile di risposta.

L’ equazione per il modello di regressione lineare multipla è:

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

Oro:

  • y

    è la variabile dipendente.

  • x_i

    è la variabile indipendente i.

  • \beta_0

    è la costante dell’equazione di regressione lineare multipla.

  • \beta_i

    è il coefficiente di regressione associato alla variabile

    x_i

    .

  • \bm{\varepsilon}

    è l’errore o residuo, cioè la differenza tra il valore osservato e il valore stimato dal modello.

  • m

    è il numero totale di variabili nel modello.

Quindi, se abbiamo un campione con un totale di

n

osservazioni, possiamo porre il modello di regressione lineare multipla in forma matriciale:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

L’espressione della matrice sopra può essere riscritta assegnando una lettera a ciascuna matrice:

Y=X\beta+\varepsilon

Pertanto, applicando il criterio dei minimi quadrati, possiamo arrivare alla formula per la stima dei coefficienti di un’equazione di regressione lineare multipla :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

Tuttavia, l’applicazione di questa formula è molto laboriosa e richiede molto tempo, motivo per cui in pratica è consigliabile utilizzare un software per computer (come Minitab o Excel) che consente di creare un modello di regressione multipla molto più rapidamente.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *