Le cinque ipotesi della correlazione di pearson


Il coefficiente di correlazione di Pearson (noto anche come “coefficiente di correlazione prodotto-momento”) misura l’associazione lineare tra due variabili.

Assume sempre un valore compreso tra -1 e 1 dove:

  • -1 indica una correlazione lineare perfettamente negativa tra due variabili
  • 0 indica alcuna correlazione lineare tra due variabili
  • 1 indica una correlazione lineare perfettamente positiva tra due variabili

Tuttavia, prima di calcolare il coefficiente di correlazione di Pearson tra due variabili, dobbiamo assicurarci che siano soddisfatte cinque ipotesi:

1. Livello di misurazione: entrambe le variabili dovrebbero essere misurate a livello di intervallo o rapporto .

2. Relazione lineare: deve esistere una relazione lineare tra le due variabili.

3. Normalità: entrambe le variabili dovrebbero avere una distribuzione approssimativamente normale.

4. Coppie correlate: ciascuna osservazione nel set di dati deve avere una coppia di valori.

5. Nessun valore anomalo: non dovrebbero esserci valori anomali estremi nel set di dati.

In questo articolo, forniamo una spiegazione di ciascun presupposto e come determinare se il presupposto è soddisfatto.

Ipotesi 1: Livello di misurazione

Per calcolare un coefficiente di correlazione di Pearson tra due variabili, entrambe le variabili devono essere misurate a livello di intervallo o rapporto .

Il grafico seguente fornisce una rapida spiegazione dei quattro livelli ai quali è possibile misurare le variabili:

Ecco alcuni esempi di variabili che possono essere misurate su una scala a intervalli :

  • Temperatura: misurata in Fahrenheit o Celsius
  • Punteggi di credito: misurati da 300 a 850
  • Punteggi SAT: misurati da 400 a 1.600

Ecco alcuni esempi di variabili che possono essere misurate su una scala di rapporti :

  • Altezza: misurata in centimetri, pollici, piedi, ecc.
  • Peso: misurato in chilogrammi, libbre, ecc.
  • Lunghezza: misurata in centimetri, pollici, piedi, ecc.

Se le variabili vengono misurate a livello ordinale , è necessario calcolare il coefficiente di correlazione di Spearman tra di esse.

Correlato: Livelli di misurazione: nominale, ordinale, intervallo e rapporto

Ipotesi 2: relazione lineare

Per calcolare un coefficiente di correlazione di Pearson tra due variabili, deve esistere una relazione lineare tra le due variabili.

Il modo più semplice per verificare questa ipotesi è semplicemente creare un grafico a dispersione delle due variabili. Se i punti sul grafico seguono approssimativamente una linea retta, esiste una relazione lineare:

Tuttavia, se i punti sono sparsi in modo casuale nel grafico o hanno qualche altro tipo di relazione (come quella quadratica), allora non esiste una relazione lineare tra le variabili:

In questo caso, un coefficiente di correlazione di Pearson non catturerà adeguatamente la relazione tra le variabili.

Ipotesi 3: normalità

Un coefficiente di correlazione di Pearson presuppone inoltre che le due variabili siano distribuite approssimativamente normalmente .

È possibile verificare visivamente questo presupposto creando un istogramma o un grafico QQ per ciascuna variabile.

1. Istogramma

Se l’istogramma di un set di dati ha approssimativamente la forma di una campana, è probabile che i dati siano distribuiti normalmente.

2. QQLand

Un grafico QQ, abbreviazione di “quantile-quantile”, è un tipo di grafico che mostra i quantili teorici lungo l’asse x (ovvero dove si troverebbero i dati se seguissero una distribuzione normale) e i quantili dei campioni lungo l’asse y. (cioè dove risiedono effettivamente i tuoi dati).

Se i valori dei dati seguono una linea approssimativamente retta che forma un angolo di 45 gradi, si presuppone che i dati siano distribuiti normalmente.

È inoltre possibile eseguire un test statistico formale per determinare se una variabile è distribuita normalmente.

Se il valore p del test è inferiore a un certo livello di significatività (come α = 0,05), allora hai prove sufficienti per affermare che i dati non sono distribuiti normalmente.

Esistono tre test statistici comunemente utilizzati per testare la normalità:

1. Il test di Jarque-Bera

2. Il test di Shapiro-Wilk

3. Il test di Kolmogorov-Smirnov

Ipotesi 4: coppie correlate

Un coefficiente di correlazione di Pearson presuppone inoltre che ciascuna osservazione nel set di dati debba avere una coppia di valori.

Questa ipotesi è facile da verificare. Ad esempio, se stai calcolando la correlazione tra peso e altezza, verifica semplicemente che ciascuna osservazione nel set di dati abbia una misura per il peso e una misura per l’altezza.

Ipotesi 5: Nessun valore anomalo

Un coefficiente di correlazione di Pearson presuppone inoltre che non vi siano valori anomali estremi nel set di dati, poiché i valori anomali influenzano fortemente il calcolo del coefficiente di correlazione.

Per illustrare ciò, si consideri il seguente set di dati:

Il coefficiente di correlazione di Pearson tra X e Y è 0,949 .

Tuttavia, supponiamo di avere un valore anomalo nel set di dati:

Il coefficiente di correlazione di Pearson tra X e Y è ora 0,711 .

Un valore anomalo modifica significativamente il coefficiente di correlazione di Pearson tra le due variabili. In questo caso, potrebbe avere senso rimuovere il valore anomalo dal set di dati.

Correlato: La guida completa: quando rimuovere i valori anomali nei dati

Risorse addizionali

Le seguenti esercitazioni forniscono ulteriori informazioni sulla correlazione di Pearson:

Introduzione al coefficiente di correlazione di Pearson
Come riportare la correlazione di Pearson in formato APA
Come calcolare manualmente un coefficiente di correlazione di Pearson

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *