Ciò che è considerato un “forte”; correlazione?


Nelle statistiche, spesso cerchiamo di capire come due variabili si relazionano tra loro. Ad esempio, potremmo voler sapere:

  • Qual è la relazione tra il numero di ore di studio di uno studente e il voto che ottiene all’esame?
  • Qual è la relazione tra la temperatura esterna e il numero di coni gelato venduti da un food truck?
  • Qual è la relazione tra gli investimenti di marketing spesi e le entrate totali guadagnate per una determinata azienda?

In ciascuno di questi scenari, stiamo cercando di comprendere la relazione tra due diverse variabili.

In statistica, uno dei modi più comuni per quantificare una relazione tra due variabili è utilizzare il coefficiente di correlazione di Pearson , che è una misura dell’associazione lineare tra due variabili . Ha un valore compreso tra -1 e 1 dove:

  • -1 indica una correlazione lineare perfettamente negativa tra due variabili
  • 0 indica alcuna correlazione lineare tra due variabili
  • 1 indica una correlazione lineare perfettamente positiva tra due variabili

Spesso indicato con r , questo numero ci aiuta a comprendere la forza di una relazione tra due variabili. Più r si allontana da zero, più forte è la relazione tra le due variabili .

È importante notare che due variabili possono avere una forte correlazione positiva o una forte correlazione negativa .

Correlazione positiva forte: quando il valore di una variabile aumenta, il valore dell’altra variabile aumenta allo stesso modo. Ad esempio, più ore uno studente trascorre studiando, più alto tenderà ad essere il punteggio dell’esame. Le ore studiate e i punteggi degli esami hanno una forte correlazione positiva.

Correlazione negativa forte: quando il valore di una variabile aumenta, il valore dell’altra variabile tende a diminuire. Ad esempio, più una gallina invecchia, meno uova tende a produrre. L’età della gallina e la produzione di uova hanno una forte correlazione negativa.

La tabella seguente mostra la regola pratica per interpretare la forza della relazione tra due variabili in base al valore di r :

Valore assoluto di r Forza della relazione
r < 0,25 Nessuna relazione
0,25 < r < 0,5 Relazione debole
0,5 < r < 0,75 Relazioni moderate
r > 0,75 Relazione forte

La correlazione tra due variabili è considerata forte se il valore assoluto di r è maggiore di 0,75 . Tuttavia, la definizione di correlazione “forte” può variare da un campo all’altro.

Medico

Ad esempio, in campo medico, la definizione di relazione “forte” è spesso molto più bassa. Se la relazione tra l’assunzione di un determinato farmaco e la riduzione degli attacchi cardiaci è r = 0,3, questa potrebbe essere considerata una relazione “debolmente positiva” in altri campi, ma in medicina è abbastanza significativa da valere la pena di assumere il medicinale per ridurre le possibilità di avere un infarto.

Risorse umane

In un altro campo, come quello delle risorse umane, si potrebbero utilizzare più spesso correlazioni inferiori. Ad esempio, è stato dimostrato che la correlazione tra i voti universitari e le prestazioni lavorative è pari a circa r = 0,16 . È un valore piuttosto basso, ma è abbastanza importante che un’azienda lo consideri almeno durante un processo di intervista.

Tecnologia

E in un campo come la tecnologia, in alcuni casi potrebbe essere necessario che la correlazione tra le variabili sia molto più elevata per essere considerata “forte”. Ad esempio, se un’azienda crea un’auto a guida autonoma e la correlazione tra le decisioni di svolta dell’auto e la probabilità di avere un incidente è r = 0,95 , questo è probabilmente troppo basso perché l’auto possa essere considerata sicura poiché il risultato di un’auto a guida autonoma l’auto a guida autonoma è r = 0,95. una decisione sbagliata può essere fatale.

Visualizza correlazioni

Non importa in quale campo lavori, è utile creare un grafico a dispersione delle due variabili che stai studiando in modo da poter esaminare almeno visivamente la relazione tra loro.

Ad esempio, supponiamo di avere il seguente set di dati che mostra l’altezza e il peso di 12 individui:

È un po’ difficile capire la relazione tra queste due variabili solo guardando i dati grezzi. Tuttavia, è molto più semplice comprendere la relazione se creiamo un grafico a dispersione con l’altezza sull’asse x e il peso sull’asse y:

Esiste chiaramente una relazione positiva tra le due variabili.

Creare una nuvola di punti è una buona idea per altri due motivi:

(1) Un grafico a dispersione consente di identificare valori anomali che influiscono sulla correlazione.

Un valore anomalo estremo può modificare in modo significativo un coefficiente di correlazione di Pearson. Considera l’esempio seguente, in cui le variabili X e Y hanno un coefficiente di correlazione di Pearson di r = 0,00 .

Ma ora immaginiamo di avere un valore anomalo nel set di dati:

Questo valore anomalo fa sì che la correlazione sia r = 0,878 . Questo singolo punto dati cambia completamente la correlazione e fa sembrare che esista una forte relazione tra le variabili X e Y , quando in realtà non esiste.

(2) Un grafico a dispersione può aiutarti a identificare le relazioni non lineari tra le variabili.

Un coefficiente di correlazione di Pearson ci dice semplicemente se due variabili sono linearmente correlate. Ma anche se un coefficiente di correlazione di Pearson ci dice che due variabili non sono correlate, potrebbero comunque avere una sorta di relazione non lineare. Questo è un altro motivo per cui è utile creare un grafico a dispersione.

Ad esempio, considera il grafico a dispersione riportato di seguito tra le variabili X e Y , in cui la loro correlazione è r = 0,00 .

Le variabili chiaramente non hanno una relazione lineare, ma hanno una relazione non lineare: i valori y sono semplicemente i valori x al quadrato. Un coefficiente di correlazione da solo non è in grado di rilevare questa relazione, ma un grafico a dispersione sì.

Conclusione

In sintesi:

  • Generalmente, una correlazione maggiore di 0,75 è considerata una correlazione “forte” tra due variabili.
  • Tuttavia, questa regola pratica può variare da zona a zona. Ad esempio, una correlazione molto più debole potrebbe essere considerata forte in un campo medico rispetto a un campo tecnologico. È meglio utilizzare competenze specifiche del settore per decidere cosa è considerato forte.
  • Quando si utilizza la correlazione per descrivere la relazione tra due variabili, è utile creare anche un grafico a dispersione in modo da poter identificare valori anomali nel set di dati nonché una potenziale relazione non lineare.

Risorse addizionali

Cos’è considerata una correlazione “debole”?
Calcolatore della matrice di correlazione
Come leggere una matrice di correlazione

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *