Analyse univariée ou multivariée : quelle est la différence ?



Le terme analyse univariée fait référence à l’analyse d’une variable. Vous pouvez vous en souvenir car le préfixe « uni » signifie « un ».

Le terme analyse multivariée fait référence à l’analyse de plus d’une variable. Vous pouvez vous en souvenir car le préfixe « multi » signifie « plus d’un ».

Il existe trois manières courantes d’effectuer une analyse univariée :

1. Statistiques récapitulatives

  • Nous pouvons calculer des mesures de tendance centrale comme la moyenne ou la médiane pour une variable.
  • Nous pouvons également calculer des mesures de dispersion telles que l’écart type pour une variable.

2. Distributions de fréquences

  • Nous pouvons créer une distribution de fréquence , qui décrit la fréquence à laquelle chaque valeur apparaît pour une variable.

3. Graphiques

  • Nous pouvons créer des graphiques tels que des boxplots, des histogrammes, des courbes de densité, etc. pour visualiser la distribution des valeurs d’une variable.

Il existe deux manières courantes d’effectuer une analyse multivariée :

1. Matrice de nuages de points

  • Nous pouvons créer une matrice de nuages de points, qui nous permet de visualiser la relation entre chaque combinaison par paire de variables dans un ensemble de données.

2. Algorithmes d’apprentissage automatique

  • Nous pouvons utiliser un algorithme d’apprentissage supervisé pour ajuster un modèle tel que la régression linéaire multiple qui quantifie la relation entre plusieurs variables prédictives et une variable de réponse.
  • Nous pouvons également utiliser un algorithme d’apprentissage non supervisé comme l’analyse en composantes principales pour trouver simultanément la structure et les relations entre plusieurs variables dans un ensemble de données.

Les exemples suivants montrent comment effectuer une analyse univariée et multivariée avec l’ensemble de données suivant :

Remarque : Lorsque vous analysez exactement deux variables, on parle d’ analyse bivariée .

Exemple : Comment effectuer une analyse univariée

Nous pourrions choisir d’effectuer une analyse univariée sur n’importe laquelle des variables individuelles de l’ensemble de données.

Par exemple, nous pouvons choisir d’effectuer une analyse univariée sur la variable Taille du ménage :

Exemple d'analyse univariée

Nous pouvons calculer les mesures suivantes de la tendance centrale de la taille du ménage :

  • Moyenne (la valeur moyenne): 3,8
  • Médiane (la valeur moyenne): 4

Ces valeurs nous donnent une idée de l’endroit où se situe la valeur « centrale ».

On peut également calculer les mesures de dispersion suivantes :

  • Plage (la différence entre le max et le min): 6
  • Échelle interquartile (la répartition des 50 % moyens des valeurs) : 2,5
  • Écart type (une mesure moyenne de la propagation) : 1,87

Ces valeurs nous donnent une idée de la répartition des valeurs de cette variable.

Nous pouvons également créer le tableau de distribution de fréquence suivant pour résumer la fréquence à laquelle différentes valeurs se produisent :

Nous pouvons également créer un boxplot pour visualiser la distribution des valeurs en fonction de la taille du ménage :

Alternativement, nous pourrions créer un histogramme pour visualiser la distribution des valeurs :

En calculant ces mesures et en créant ces graphiques, nous pouvons mieux comprendre comment les valeurs sont distribuées pour la variable Taille du ménage.

Exemple : Comment effectuer une analyse multivariée

Supposons encore une fois que nous ayons le même ensemble de données :

Une forme simple d’analyse multivariée que nous pourrions effectuer sur cet ensemble de données consiste à créer une matrice de nuages de points , qui est une matrice qui montre un nuage de points pour chaque combinaison par paire de variables numériques dans l’ensemble de données.

Nous pourrions créer ce type de matrice pour visualiser simultanément la relation entre la taille du ménage, le revenu annuel et le nombre d’animaux de compagnie.

Ressource : Consultez ce didacticiel pour voir comment créer une matrice de nuages de points dans R.

Une autre façon d’effectuer une analyse multivariée sur cet ensemble de données serait d’ajuster un modèle de régression linéaire multiple . Par exemple, nous pourrions créer un modèle de régression qui utilise la taille du ménage et le nombre d’animaux de compagnie pour prédire le revenu annuel.

Ressource : Consultez ce didacticiel pour voir comment effectuer une régression linéaire multiple dans R.

Une autre façon d’effectuer une analyse multivariée sur cet ensemble de données serait d’effectuer une analyse en composantes principales , ce qui nous permet de trouver une structure sous-jacente dans l’ensemble de données.

Ressource : Consultez ce didacticiel pour voir comment effectuer une analyse en composantes principales dans R.

Conclusion

Voici un bref résumé de cet article :

  • L’analyse univariée est l’analyse d’une variable.
  • L’analyse multivariée est l’analyse de plus d’une variable.
  • Il existe différentes manières d’effectuer chaque type d’analyse en fonction de votre objectif final.
  • Dans le monde réel, nous effectuons souvent les deux types d’analyse sur un seul ensemble de données.
  • L’analyse univariée nous permet de comprendre la distribution des valeurs pour une variable tandis que l’analyse multivariée nous permet de comprendre la relation entre plusieurs variables.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *