Correlazione

Questo articolo spiega il significato della correlazione tra due variabili, come calcolare il coefficiente di correlazione e i diversi tipi di correlazioni esistenti. Inoltre, viene mostrato come interpretare il valore della correlazione tra due variabili.

Cos’è la correlazione?

La correlazione è una misura statistica che indica il grado di relazione tra due variabili. Più specificamente, la correlazione lineare viene utilizzata per determinare il grado di correlazione lineare tra due diverse variabili.

Due variabili sono collegate quando la modifica dei valori di una variabile modifica anche i valori dell’altra variabile. Ad esempio, se aumentando la variabile A aumenta anche la variabile B, esiste una correlazione tra le variabili A e B.

Tipi di correlazione

A seconda della relazione tra due variabili casuali, si distinguono i seguenti tipi di correlazione lineare :

  • Correlazione diretta (o correlazione positiva) : una variabile aumenta quando aumenta anche l’altra.
  • Correlazione inversa (o correlazione negativa) : quando una variabile aumenta, l’altra diminuisce, e viceversa, se una variabile diminuisce, l’altra aumenta.
  • Correlazione zero (nessuna correlazione) : non esiste alcuna relazione tra le due variabili.

Tieni presente che questi sono i diversi tipi di correlazione lineare esistenti, ma può anche darsi che la relazione matematica tra due variabili non possa essere rappresentata da una linea retta, ma debba invece utilizzare una funzione più complessa, come una parabola. o un logaritmo. In questo caso si tratterebbe di una correlazione non lineare .

Coefficiente di correlazione

Considerando la definizione di correlazione e i diversi tipi di correlazione esistenti, vediamo come viene calcolato questo valore statistico.

Il coefficiente di correlazione , detto anche coefficiente di correlazione lineare o coefficiente di correlazione di Pearson , è il valore della correlazione tra due variabili.

Il coefficiente di correlazione di due variabili statistiche è pari al quoziente tra la covarianza delle variabili e la radice quadrata del prodotto della varianza di ciascuna variabile. Pertanto, la formula per il calcolo del coefficiente di correlazione è la seguente:

\rho_{XY}=\cfrac{Cov(X,Y)}{\sqrt{Var(X)\cdot Var(Y)}}

Quando si calcola il coefficiente di correlazione su una popolazione, il simbolo di correlazione è la lettera greca ρ. Ma quando il coefficiente viene calcolato rispetto a un campione, di solito viene utilizzata la lettera r come simbolo.

Il valore dell’indice di correlazione può essere compreso tra -1 e +1 compresi. Vedremo di seguito come viene interpretato il valore del coefficiente di correlazione.

Puoi vedere un esempio concreto di come viene calcolato il coefficiente di correlazione nel seguente link:

Tieni presente che esistono altri tipi di coefficienti di correlazione, come il coefficiente di correlazione di Spearman o Kendall. Ma il più comune è senza dubbio il coefficiente di correlazione di Pearson.

Interpretare la correlazione

Il valore del coefficiente di correlazione può variare da -1 a +1 compreso. Quindi, a seconda del valore del coefficiente di correlazione, significa che la relazione tra le due variabili è in una direzione o nell’altra. Ecco come interpretare il valore di correlazione :

  • r=-1 : le due variabili hanno una perfetta correlazione negativa, quindi possiamo tracciare una linea con pendenza negativa in cui tutti i punti si collegano.
  • -1<r<0 : la correlazione tra le due variabili è negativa, quindi quando una variabile aumenta l’altra diminuisce. Più il valore è vicino a -1, più le variabili sono correlate negativamente.
  • r=0 : la correlazione tra le due variabili è molto debole, infatti la relazione lineare tra loro è zero. Ciò non significa che le variabili siano indipendenti, poiché potrebbero avere una relazione non lineare.
  • 0<r<1 : la correlazione tra le due variabili è positiva, più il valore è vicino a +1, più forte è la relazione tra le variabili. In questo caso una variabile tende ad aumentare il proprio valore quando aumenta anche l’altra.
  • r=1 : le due variabili hanno una perfetta correlazione positiva, cioè hanno una relazione lineare positiva.
tipi di correlazione

Come puoi vedere nei grafici a dispersione sopra, quanto più forte è la correlazione tra due variabili, tanto più vicini sono i punti sul grafico. Se invece i punti sono molto distanti tra loro, significa che la correlazione è debole.

Tieni presente che anche se esiste una correlazione tra due variabili, ciò non significa che esista causalità tra loro, ovvero la correlazione tra due variabili non significa che il cambiamento di una variabile sia la causa del cambiamento nell’altra. variabile.

Ad esempio, se scopriamo che esiste una relazione positiva tra la produzione di due diversi ormoni da parte dell’organismo, ciò non significa necessariamente che l’aumento di un ormone porti ad un aumento dell’altro ormone. Potrebbe darsi che il corpo produca entrambi gli ormoni perché ne ha bisogno per combattere una malattia e quindi aumenta i livelli di entrambi contemporaneamente, nel qual caso la causa sarebbe la malattia. Per determinare se esiste un nesso causale tra i due ormoni, dovrebbe essere effettuato uno studio più dettagliato.

Correlazione e regressione

Correlazione e regressione sono due concetti generalmente correlati, poiché entrambi vengono utilizzati per analizzare la relazione tra due variabili.

La correlazione è una misura statistica che quantifica la relazione tra due variabili, tuttavia, la regressione implica la creazione di un’equazione (se si tratta di una regressione lineare sarà una linea retta) che consente di mettere in relazione le due variabili.

Pertanto, la correlazione fornisce semplicemente un valore numerico alla relazione tra le variabili, mentre la regressione può essere utilizzata per tentare di prevedere il valore di una variabile rispetto all’altra.

Generalmente, analizziamo prima se le variabili sono correlate calcolando il coefficiente di correlazione. E se la correlazione è significativa, eseguiamo una regressione del set di dati.

È comune confondere il coefficiente di correlazione con il valore della pendenza della retta ottenuta nella regressione lineare, tuttavia non sono equivalenti.

Matrice di correlazione

La matrice di correlazione è una matrice che contiene in posizione i,j il coefficiente di correlazione tra le variabili i e j .

Pertanto, la matrice di correlazione è una matrice quadrata piena di unità sulla diagonale principale e l’elemento della riga i e della colonna j è costituito dal valore del coefficiente di correlazione tra la variabile i e la variabile j .

Pertanto, la formula per la matrice di correlazione è la seguente:

matrice di correlazione

Oro

r_{ij}

è il coefficiente di correlazione tra le variabili

i

E

j.

La matrice di correlazione è molto utile per riassumere i risultati e confrontare la correlazione tra più variabili contemporaneamente, perché puoi vedere rapidamente quali relazioni sono forti.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *