Corrélation

Cet article explique la signification de la corrélation entre deux variables, comment calculer le coefficient de corrélation et les différents types de corrélations qui existent. De plus, il est montré comment interpréter la valeur de la corrélation entre deux variables.

Qu’est-ce que la corrélation ?

La corrélation est une mesure statistique qui indique le degré de relation entre deux variables. Plus précisément, la corrélation linéaire est utilisée pour déterminer le degré de corrélation linéaire entre deux variables différentes.

Deux variables sont liées lorsque la modification des valeurs d’une variable modifie également les valeurs de l’autre variable. Par exemple, si l’augmentation de la variable A augmente également la variable B, il existe une corrélation entre les variables A et B.

Types de corrélation

Selon la relation entre deux variables aléatoires, on distingue les types de corrélation linéaire suivants :

  • Corrélation directe (ou corrélation positive) : une variable augmente lorsque l’autre augmente également.
  • Corrélation inverse (ou corrélation négative) : lorsqu’une variable augmente, l’autre diminue, et vice versa, si une variable diminue, l’autre augmente.
  • Corrélation nulle (pas de corrélation) : Il n’y a aucune relation entre les deux variables.

Gardez à l’esprit que ce sont les différents types de corrélation linéaire qui existent, mais il se peut aussi que la relation mathématique entre deux variables ne puisse pas être représentée par une ligne droite, mais qu’il faille plutôt utiliser une fonction plus complexe, comme une parabole. ou un logarithme. Dans ce cas, il s’agirait d’une corrélation non linéaire .

Coefficient de corrélation

Compte tenu de la définition de la corrélation et des différents types de corrélation qui existent, voyons comment cette valeur statistique est calculée.

Le coefficient de corrélation , également appelé coefficient de corrélation linéaire ou coefficient de corrélation de Pearson , est la valeur de la corrélation entre deux variables.

Le coefficient de corrélation de deux variables statistiques est égal au quotient entre la covariance des variables et la racine carrée du produit de la variance de chaque variable. Par conséquent, la formule de calcul du coefficient de corrélation est la suivante :

\rho_{XY}=\cfrac{Cov(X,Y)}{\sqrt{Var(X)\cdot Var(Y)}}

Lors du calcul du coefficient de corrélation sur une population, le symbole de corrélation est la lettre grecque ρ. Mais lorsque le coefficient est calculé par rapport à un échantillon, la lettre r est généralement utilisée comme symbole.

La valeur de l’indice de corrélation peut être comprise entre -1 et +1 inclus. Nous verrons ci-dessous comment la valeur du coefficient de corrélation est interprétée.

Vous pouvez voir un exemple concret de la façon dont le coefficient de corrélation est calculé dans le lien suivant :

Gardez à l’esprit qu’il existe d’autres types de coefficients de corrélation, tels que le coefficient de corrélation de Spearman ou de Kendall. Mais le plus courant est sans aucun doute le coefficient de corrélation de Pearson.

Interprétation de la corrélation

La valeur du coefficient de corrélation peut aller de -1 à +1 inclus. Ainsi, selon la valeur du coefficient de corrélation, cela signifie que la relation entre les deux variables est dans un sens ou dans l’autre. Voici comment interpréter la valeur de corrélation :

  • r=-1 : les deux variables ont une corrélation négative parfaite, on peut donc tracer une ligne avec une pente négative dans laquelle se trouvent tous les points.
  • -1<r<0 : la corrélation entre les deux variables est négative, donc lorsqu’une variable augmente l’autre diminue. Plus la valeur est proche de -1, plus les variables sont liées négativement.
  • r=0 : la corrélation entre les deux variables est très faible, en effet, la relation linéaire entre elles est nulle. Cela ne signifie pas que les variables sont indépendantes, car elles pourraient avoir une relation non linéaire.
  • 0<r<1 : la corrélation entre les deux variables est positive, plus la valeur est proche de +1, plus la relation entre les variables est forte. Dans ce cas, une variable a tendance à augmenter sa valeur lorsque l’autre augmente également.
  • r=1 : les deux variables ont une corrélation positive parfaite, c’est-à-dire qu’elles ont une relation linéaire positive.
types de corrélation

Comme vous pouvez le voir dans les nuages de points ci-dessus, plus la corrélation entre deux variables est forte, plus les points sont rapprochés sur le graphique. En revanche, si les points sont très éloignés, cela signifie que la corrélation est faible.

Gardez à l’esprit que même s’il existe une corrélation entre deux variables, cela ne signifie pas qu’il existe une causalité entre elles, c’est-à-dire que la corrélation entre deux variables ne signifie pas que le changement d’une variable est la cause du changement de l’autre. variable.

Par exemple, si nous constatons qu’il existe une relation positive entre la production par le corps de deux hormones différentes, cela ne signifie pas nécessairement qu’une augmentation d’une hormone entraîne une augmentation de l’autre hormone. Il se pourrait que le corps produise les deux hormones parce qu’il a besoin des deux pour combattre une maladie et qu’il augmente donc le niveau des deux simultanément, dans ce cas la cause serait la maladie. Pour déterminer s’il existe un lien de causalité entre les deux hormones, une étude plus détaillée devrait être réalisée.

Correlation et regression

La corrélation et la régression sont deux concepts généralement liés, puisque tous deux servent à analyser la relation entre deux variables.

La corrélation est une mesure statistique qui quantifie la relation entre deux variables, cependant, la régression consiste à créer une équation (s’il s’agit d’une régression linéaire, ce sera une ligne droite) qui permet de relier les deux variables.

Ainsi, la corrélation fournit simplement une valeur numérique à la relation entre les variables, tandis que la régression peut être utilisée pour tenter de prédire la valeur d’une variable par rapport à l’autre.

Généralement, nous analysons d’abord si les variables sont corrélées en calculant le coefficient de corrélation. Et si la corrélation est significative, nous procédons alors à une régression de l’ensemble de données.

Il est courant de confondre le coefficient de corrélation avec la valeur de la pente de la droite obtenue en régression linéaire, cependant ils ne sont pas équivalents.

Matrice de corrélation

La matrice de corrélation est une matrice qui contient en position i,j le coefficient de corrélation entre les variables i et j .

Par conséquent, la matrice de corrélation est une matrice carrée remplie de un sur la diagonale principale et l’élément de la ligne i et de la colonne j est constitué de la valeur du coefficient de corrélation entre la variable i et la variable j .

Ainsi, la formule de la matrice de corrélation est la suivante :

matrice de corrélation

r_{ij} est le coefficient de corrélation entre les variablesi etj.

La matrice de corrélation est très utile pour résumer les résultats et comparer la corrélation entre plusieurs variables en même temps, car vous pouvez rapidement voir quelles relations sont les plus fortes.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *