Comment calculer la corrélation dans SAS (avec exemples)
Une façon de quantifier la relation entre deux variables consiste à utiliser le coefficient de corrélation de Pearson , qui mesure l’association linéaire entre deux variables .
Il prend toujours une valeur comprise entre -1 et 1 où :
- -1 indique une corrélation linéaire parfaitement négative entre deux variables
- 0 indique aucune corrélation linéaire entre deux variables
- 1 indique une corrélation linéaire parfaitement positive entre deux variables
Plus le coefficient de corrélation s’éloigne de zéro, plus la relation entre les deux variables est forte.
Les exemples suivants montrent comment utiliser proc corr dans SAS pour calculer le coefficient de corrélation entre les variables de l’ensemble de données intégré SAS appelé Fish , qui contient diverses mesures pour 159 poissons différents capturés dans un lac en Finlande.
Nous pouvons utiliser proc print pour afficher les 10 premières observations de cet ensemble de données :
/*view first 10 observations from Fish dataset*/ proc print data=sashelp.Fish (obs=10); run;
Exemple 1 : Corrélation entre deux variables
Nous pouvons utiliser le code suivant pour calculer le coefficient de corrélation de Pearson entre les variables Hauteur et Largeur :
/*calculate correlation coefficient between Height and Width*/ proc corr data=sashelp.fish; var Height Width; run;
Le premier tableau affiche des statistiques récapitulatives pour la hauteur et la largeur.
Le deuxième tableau affiche le coefficient de corrélation de Pearson entre les deux variables, y compris une valeur p qui nous indique si la corrélation est statistiquement significative.
À partir du résultat, nous pouvons voir :
- Coefficient de corrélation de Pearson : 0,79288
- Valeur P : <0,0001
Cela nous indique qu’il existe une forte corrélation positive entre la hauteur et la largeur et que la corrélation est statistiquement significative puisque la valeur p est inférieure à α = 0,05.
Connexes :Qu’est-ce qui est considéré comme une corrélation « forte » ?
Exemple 2 : Corrélation entre toutes les variables
Nous pouvons utiliser le code suivant pour calculer le coefficient de corrélation de Pearson entre toutes les combinaisons par paires de variables de l’ensemble de données :
/*calculate correlation coefficient between all pairwise combinations of variables*/ proc corr data=sashelp.fish; run;
Le résultat affiche une matrice de corrélation , qui contient le coefficient de corrélation de Pearson et les valeurs p correspondantes pour chaque combinaison par paire de variables numériques dans l’ensemble de données.
Par exemple:
- Le coefficient de corrélation de Pearson entre le poids et la longueur1 est de 0,91644.
- Le coefficient de corrélation de Pearson entre le poids et la longueur2 est de 0,91937.
- Le coefficient de corrélation de Pearson entre le poids et la longueur3 est de 0,92447.
Et ainsi de suite.
Exemple 3 : Visualiser la corrélation avec un nuage de points
Nous pouvons également utiliser la fonction plots pour créer un nuage de points afin de visualiser la corrélation entre deux variables :
/*visualize correlation between Height and Width*/ proc corr data=sashelp.fish plots=scatter(nvar=all);; var Height Width; run;
Sur le graphique, nous pouvons voir la forte corrélation positive entre la hauteur et la largeur. À mesure que la hauteur augmente, la largeur a également tendance à augmenter.
Dans le coin supérieur gauche du graphique, nous pouvons également voir le total des observations utilisées, le coefficient de corrélation et la valeur p du coefficient de corrélation.
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres opérations courantes dans SAS :
Comment créer des tableaux de fréquences dans SAS
Comment calculer des statistiques descriptives dans SAS