Comment calculer la corrélation point-bisériale en Python



La corrélation point-bisériale est utilisée pour mesurer la relation entre une variable binaire, x, et une variable continue, y.

Semblable au coefficient de corrélation de Pearson , le coefficient de corrélation point-bisérial prend une valeur comprise entre -1 et 1 où :

  • -1 indique une corrélation parfaitement négative entre deux variables
  • 0 indique aucune corrélation entre deux variables
  • 1 indique une corrélation parfaitement positive entre deux variables

Ce tutoriel explique comment calculer la corrélation point-bisériale entre deux variables en Python.

Exemple : corrélation point-bisériale en Python

Supposons que nous ayons une variable binaire, x, et une variable continue, y :

x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0]
y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]

Nous pouvons utiliser la fonction pointbiserialr() de la bibliothèque scipy.stats pour calculer la corrélation point-bisériale entre les deux variables.

Notez que cette fonction renvoie un coefficient de corrélation ainsi qu’une valeur p correspondante :

import scipy.stats as stats

#calculate point-biserial correlation
stats.pointbiserialr(x, y)

PointbiserialrResult(correlation=0.21816, pvalue=0.51928)

Le coefficient de corrélation point-bisérial est de 0,21816 et la valeur p correspondante est de 0,51928 .

Puisque le coefficient de corrélation est positif, cela indique que lorsque la variable x prend la valeur « 1 », la variable y a tendance à prendre des valeurs plus élevées que lorsque la variable x prend la valeur « 0 ».

Puisque la valeur p de cette corrélation n’est pas inférieure à 0,05, cette corrélation n’est pas statistiquement significative.

Vous pouvez trouver les détails exacts de la façon dont cette corrélation est calculée dans la documentation scipy.stats .

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *