Comment créer une matrice de covariance dans Excel


La covariance est une mesure de la façon dont les changements dans une variable sont associés aux changements dans une deuxième variable. Plus précisément, il s’agit d’une mesure du degré auquel deux variables sont linéairement associées.

La formule pour calculer la covariance entre deux variables, X et Y est :

COV( X , Y ) = Σ(x- x )(y- y ) / n

Une matrice de covariance est une matrice carrée qui montre la covariance entre de nombreuses variables différentes. Cela peut être un moyen simple et utile de comprendre comment les différentes variables sont liées dans un ensemble de données.

L’exemple suivant montre comment créer une matrice de covariance dans Excel à l’aide d’un simple ensemble de données.

Comment créer une matrice de covariance dans Excel

Supposons que nous disposions de l’ensemble de données suivant qui montre les résultats aux tests de 10 étudiants différents dans trois matières : mathématiques, sciences et histoire.

Pour créer une matrice de covariance pour cet ensemble de données, cliquez sur l’option Analyse des données en haut à droite d’Excel sous l’onglet Données .

Ensemble d'outils d'analyse dans Excel

Remarque : Si vous ne voyez pas l’option Analyse des données, vous devez d’abord charger le Data Analysis Toolpak .

Une fois que vous avez cliqué sur cette option, une nouvelle fenêtre apparaîtra. Cliquez sur Covariance .

Dans la zone Plage d’entrée , tapez « $A$1 : $C$11 », car il s’agit de la plage de cellules où se trouve notre ensemble de données. Cochez la case Étiquettes dans la première ligne pour indiquer à Excel que les étiquettes de nos variables se trouvent dans la première ligne. Ensuite, dans la zone Plage de sortie , tapez n’importe quelle cellule dans laquelle vous souhaitez que la matrice de covariance apparaisse. J’ai choisi la cellule $E$2. Cliquez ensuite sur OK .

La matrice de covariance est générée automatiquement et apparaît dans la cellule $E$2 :

Comment interpréter une matrice de covariance

Une fois que nous avons une matrice de covariance, il est assez simple d’interpréter les valeurs de la matrice.

Les valeurs le long des diagonales de la matrice sont simplement les variances de chaque sujet. Par exemple:

  • La variance des résultats en mathématiques est de 64,96
  • La variance des scores en sciences est de 56,4
  • La variance des scores historiques est de 75,56

Les autres valeurs de la matrice représentent les covariances entre les différents sujets. Par exemple:

  • La covariance entre les scores en mathématiques et en sciences est de 33,2.
  • La covariance entre les scores en mathématiques et en histoire est de -24,44.
  • La covariance entre les scores en sciences et en histoire est de -24,1.

Un nombre positif pour la covariance indique que deux variables ont tendance à augmenter ou diminuer en tandem. Par exemple, les mathématiques et les sciences ont une covariance positive (33,2), ce qui indique que les élèves qui obtiennent des résultats élevés en mathématiques ont également tendance à obtenir des résultats élevés en sciences. De même, les élèves qui obtiennent de faibles résultats en mathématiques ont également tendance à obtenir de faibles résultats en sciences.

Un nombre négatif pour la covariance indique que lorsqu’une variable augmente, une deuxième variable a tendance à diminuer. Par exemple, les mathématiques et l’histoire ont une covariance négative (-24,44), ce qui indique que les élèves qui obtiennent des résultats élevés en mathématiques ont tendance à avoir des résultats faibles en histoire. De même, les élèves qui obtiennent de faibles résultats en mathématiques ont tendance à obtenir des résultats élevés en histoire.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *