Comment calculer la corrélation point-bisériale en Python
La corrélation point-bisériale est utilisée pour mesurer la relation entre une variable binaire, x, et une variable continue, y.
Semblable au coefficient de corrélation de Pearson , le coefficient de corrélation point-bisérial prend une valeur comprise entre -1 et 1 où :
- -1 indique une corrélation parfaitement négative entre deux variables
- 0 indique aucune corrélation entre deux variables
- 1 indique une corrélation parfaitement positive entre deux variables
Ce tutoriel explique comment calculer la corrélation point-bisériale entre deux variables en Python.
Exemple : corrélation point-bisériale en Python
Supposons que nous ayons une variable binaire, x, et une variable continue, y :
x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0] y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]
Nous pouvons utiliser la fonction pointbiserialr() de la bibliothèque scipy.stats pour calculer la corrélation point-bisériale entre les deux variables.
Notez que cette fonction renvoie un coefficient de corrélation ainsi qu’une valeur p correspondante :
import scipy.stats as stats #calculate point-biserial correlation stats.pointbiserialr(x, y) PointbiserialrResult(correlation=0.21816, pvalue=0.51928)
Le coefficient de corrélation point-bisérial est de 0,21816 et la valeur p correspondante est de 0,51928 .
Puisque le coefficient de corrélation est positif, cela indique que lorsque la variable x prend la valeur « 1 », la variable y a tendance à prendre des valeurs plus élevées que lorsque la variable x prend la valeur « 0 ».
Puisque la valeur p de cette corrélation n’est pas inférieure à 0,05, cette corrélation n’est pas statistiquement significative.
Vous pouvez trouver les détails exacts de la façon dont cette corrélation est calculée dans la documentation scipy.stats .