Comment créer une matrice de covariance dans R



La covariance est une mesure de la façon dont les changements dans une variable sont associés aux changements dans une deuxième variable. Plus précisément, il s’agit d’une mesure du degré auquel deux variables sont linéairement associées.

Une matrice de covariance est une matrice carrée qui montre la covariance entre de nombreuses variables différentes. Cela peut être un moyen utile de comprendre comment les différentes variables sont liées dans un ensemble de données.

L’exemple suivant montre comment créer une matrice de covariance dans R.

Comment créer une matrice de covariance dans R

Utilisez les étapes suivantes pour créer une matrice de covariance dans R.

Étape 1 : Créez le bloc de données.

Tout d’abord, nous allons créer un bloc de données contenant les résultats des tests de 10 élèves différents dans trois matières : les mathématiques, les sciences et l’histoire.

#create data frame
data <- data.frame(math = c(84, 82, 81, 89, 73, 94, 92, 70, 88, 95),
                   science = c(85, 82, 72, 77, 75, 89, 95, 84, 77, 94),
                   history = c(97, 94, 93, 95, 88, 82, 78, 84, 69, 78))

#view data frame
data

   math science history
1    84      85      97
2    82      82      94
3    81      72      93
4    89      77      95
5    73      75      88
6    94      89      82
7    92      95      78
8    70      84      84
9    88      77      69
10   95      94      78

Étape 2 : Créez la matrice de covariance.

Ensuite, nous allons créer la matrice de covariance pour cet ensemble de données à l’aide de la fonction cov() :

#create covariance matrix
cov(data)

             math   science   history
math     72.17778  36.88889 -27.15556
science  36.88889  62.66667 -26.77778
history -27.15556 -26.77778  83.95556

Étape 3 : Interprétez la matrice de covariance.

Les valeurs le long des diagonales de la matrice sont simplement les variances de chaque sujet. Par exemple:

  • La variance des résultats en mathématiques est de 72,18
  • La variance des scores en sciences est de 62,67
  • La variance des scores historiques est de 83,96

Les autres valeurs de la matrice représentent les covariances entre les différents sujets. Par exemple:

  • La covariance entre les scores en mathématiques et en sciences est de 36,89.
  • La covariance entre les scores en mathématiques et en histoire est de -27,16.
  • La covariance entre les scores en sciences et en histoire est de -26,78.

Un nombre positif pour la covariance indique que deux variables ont tendance à augmenter ou diminuer en tandem. Par exemple, les mathématiques et les sciences ont une covariance positive (36,89), ce qui indique que les élèves qui obtiennent des résultats élevés en mathématiques ont également tendance à obtenir des résultats élevés en sciences. À l’inverse, les élèves qui obtiennent de faibles résultats en mathématiques ont également tendance à obtenir de faibles résultats en sciences.

Un nombre négatif pour la covariance indique que lorsqu’une variable augmente, une deuxième variable a tendance à diminuer. Par exemple, les mathématiques et l’histoire ont une covariance négative (-27,16), ce qui indique que les élèves qui obtiennent des résultats élevés en mathématiques ont tendance à avoir des résultats faibles en histoire. À l’inverse, les élèves qui obtiennent de faibles résultats en mathématiques ont tendance à obtenir des résultats élevés en histoire.

Vous pouvez trouver plus de didacticiels R ici .

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *