Ce qui est considéré comme un « fort » ; Corrélation?
En statistiques, nous cherchons souvent à comprendre comment deux variables sont liées l’une à l’autre. Par exemple, nous pourrions vouloir savoir :
- Quelle est la relation entre le nombre d’heures d’études d’un étudiant et la note qu’il obtient à l’examen ?
- Quelle est la relation entre la température extérieure et le nombre de cornets de glace vendus par un food truck ?
- Quelle est la relation entre les dollars de marketing dépensés et le revenu total gagné pour une entreprise donnée ?
Dans chacun de ces scénarios, nous essayons de comprendre la relation entre deux variables différentes.
En statistique, l’une des façons les plus courantes de quantifier une relation entre deux variables consiste à utiliser le coefficient de corrélation de Pearson , qui est une mesure de l’association linéaire entre deux variables . Il a une valeur comprise entre -1 et 1 où :
- -1 indique une corrélation linéaire parfaitement négative entre deux variables
- 0 indique aucune corrélation linéaire entre deux variables
- 1 indique une corrélation linéaire parfaitement positive entre deux variables
Souvent noté r , ce nombre nous aide à comprendre la force d’une relation entre deux variables. Plus r est éloigné de zéro, plus la relation entre les deux variables est forte .
Il est important de noter que deux variables peuvent avoir une forte corrélation positive ou une forte corrélation négative .
Forte corrélation positive : lorsque la valeur d’une variable augmente, la valeur de l’autre variable augmente de la même manière. Par exemple, plus un étudiant passe d’heures à étudier, plus sa note à l’examen a tendance à être élevée. Les heures étudiées et les résultats des examens ont une forte corrélation positive.
Forte corrélation négative : lorsque la valeur d’une variable augmente, la valeur de l’autre variable a tendance à diminuer. Par exemple, plus une poule vieillit, moins elle a tendance à produire d’œufs. L’âge des poules et la production d’œufs ont une forte corrélation négative.
Le tableau suivant montre la règle empirique pour interpréter la force de la relation entre deux variables en fonction de la valeur de r :
Valeur absolue de r | Force de la relation |
---|---|
r < 0,25 | Pas de relation |
0,25 < r < 0,5 | Faible relation |
0,5 < r < 0,75 | Relation modérée |
r > 0,75 | Relation forte |
La corrélation entre deux variables est considérée comme forte si la valeur absolue de r est supérieure à 0,75 . Cependant, la définition d’une corrélation « forte » peut varier d’un domaine à l’autre.
Médical
Par exemple, dans les domaines médicaux, la définition d’une relation « forte » est souvent bien inférieure. Si la relation entre la prise d’un certain médicament et la réduction des crises cardiaques est r = 0,3, cela pourrait être considéré comme une relation « faiblement positive » dans d’autres domaines, mais en médecine, elle est suffisamment significative pour qu’il vaille la peine de prendre le médicament pour réduire la chances d’avoir une crise cardiaque.
Ressources humaines
Dans un autre domaine tel que les ressources humaines, des corrélations plus faibles pourraient également être utilisées plus souvent. Par exemple, il a été démontré que la corrélation entre les notes universitaires et le rendement au travail est d’environ r = 0,16 . C’est assez faible, mais il est suffisamment important pour qu’une entreprise puisse au moins l’examiner lors d’un processus d’entretien.
Technologie
Et dans un domaine comme la technologie, la corrélation entre les variables peut devoir être beaucoup plus élevée dans certains cas pour être considérée comme « forte ». Par exemple, si une entreprise crée une voiture autonome et que la corrélation entre les décisions de virage de la voiture et la probabilité d’avoir un accident est r = 0,95 , cela est probablement trop faible pour que la voiture soit considérée comme sûre puisque le résultat de la fabrication d’une voiture autonome est de r = 0,95. une mauvaise décision peut être fatale.
Visualiser les corrélations
Quel que soit le domaine dans lequel vous travaillez, il est utile de créer un nuage de points des deux variables que vous étudiez afin de pouvoir au moins examiner visuellement la relation entre elles.
Par exemple, supposons que nous ayons l’ensemble de données suivant qui montre la taille et le poids de 12 individus :
Il est un peu difficile de comprendre la relation entre ces deux variables en regardant simplement les données brutes. Cependant, il est beaucoup plus facile de comprendre la relation si nous créons un nuage de points avec la hauteur sur l’axe des x et le poids sur l’axe des y :
Il existe clairement une relation positive entre les deux variables.
Créer un nuage de points est une bonne idée pour deux autres raisons :
(1) Un nuage de points vous permet d’identifier les valeurs aberrantes qui ont un impact sur la corrélation.
Une valeur aberrante extrême peut modifier considérablement un coefficient de corrélation de Pearson. Prenons l’exemple ci-dessous, dans lequel les variables X et Y ont un coefficient de corrélation de Pearson de r = 0,00 .
Mais imaginez maintenant que nous ayons une valeur aberrante dans l’ensemble de données :
Cette valeur aberrante fait que la corrélation est r = 0,878 . Ce point de données unique modifie complètement la corrélation et donne l’impression qu’il existe une relation forte entre les variables X et Y , alors qu’il n’y en a pas vraiment.
(2) Un nuage de points peut vous aider à identifier les relations non linéaires entre les variables.
Un coefficient de corrélation de Pearson nous indique simplement si deux variables sont linéairement liées. Mais même si un coefficient de corrélation de Pearson nous indique que deux variables ne sont pas corrélées, elles pourraient quand même entretenir une sorte de relation non linéaire. C’est une autre raison pour laquelle il est utile de créer un nuage de points.
Par exemple, considérons le nuage de points ci-dessous entre les variables X et Y , dans lequel leur corrélation est r = 0,00 .
Les variables n’ont clairement pas de relation linéaire, mais elles ont une relation non linéaire : les valeurs y sont simplement les valeurs x au carré. Un coefficient de corrélation à lui seul ne pourrait pas détecter cette relation, mais un nuage de points le pourrait.
Conclusion
En résumé:
- En règle générale, une corrélation supérieure à 0,75 est considérée comme une corrélation « forte » entre deux variables.
- Cependant, cette règle empirique peut varier d’un domaine à l’autre. Par exemple, une corrélation beaucoup plus faible pourrait être considérée comme forte dans un domaine médical par rapport à un domaine technologique. Il est préférable d’utiliser une expertise spécifique à un domaine pour décider de ce qui est considéré comme fort.
- Lorsque vous utilisez une corrélation pour décrire la relation entre deux variables, il est utile de créer également un nuage de points afin de pouvoir identifier les valeurs aberrantes dans l’ensemble de données ainsi qu’une relation non linéaire potentielle.
Ressources additionnelles
Qu’est-ce qui est considéré comme une corrélation « faible » ?
Calculateur de matrice de corrélation
Comment lire une matrice de corrélation