Comment effectuer une analyse exploratoire des données dans Excel



L’une des premières étapes de tout projet d’analyse de données est l’analyse exploratoire des données .

Cela implique d’explorer un ensemble de données de trois manières :

1. Résumer un ensemble de données à l’aide de statistiques descriptives.

2. Visualiser un ensemble de données à l’aide de graphiques.

3. Identifier les valeurs manquantes.

En effectuant ces trois actions, vous pouvez comprendre comment les valeurs d’un ensemble de données sont distribuées et détecter toute valeur problématique avant de procéder à un test d’hypothèse , à ajuster unmodèle de régression ou à effectuer une modélisation statistique.

L’exemple étape par étape suivant montre comment effectuer une analyse exploratoire des données dans Excel.

Étape 1 : Créer l’ensemble de données

Tout d’abord, créons un ensemble de données simple contenant des informations sur 10 joueurs de basket-ball différents :

Cet ensemble de données contient trois variables (points, rebonds, passes décisives) et certaines variables ont des valeurs vides ou NA, ce qui est courant dans les ensembles de données du monde réel.

Étape 2 : Résumer les données

Ensuite, nous pouvons calculer les valeurs moyennes, médianes, quartiles, minimales et maximales pour chacune des trois variables de cet ensemble de données :

Voici la formule que nous avons utilisée pour chaque cellule de la colonne B :

  • B13 : =MOYENNE( B2:B11 )
  • B14 : =MÉDIANE( B2:B11 )
  • B15 : =QUARTILE( B2:B11 , 1)
  • B16 : =QUARTILE( B2:B11 , 3)
  • B17 : =MIN( B2:B11 )
  • B18 : =MAX( B2:B11 )

Nous avons ensuite fait glisser chaque formule vers la droite afin de pouvoir calculer les mêmes métriques pour les valeurs des colonnes C et D.

En calculant ces statistiques descriptives pour chaque variable, nous pouvons acquérir une bonne compréhension de la distribution des valeurs pour chaque variable.

Remarque : Chaque formule ignore automatiquement les valeurs vides ou NA lors du calcul de chaque statistique descriptive.

Étape 3 : Visualisez les données

Nous pouvons également créer des graphiques pour visualiser les valeurs de l’ensemble de données.

Par exemple, pour visualiser la distribution des valeurs de la variable Points, nous pouvons mettre en surbrillance les valeurs dans la plage de cellules B2:B11 , puis cliquer sur l’onglet Insertion le long du ruban supérieur, puis cliquer sur l’icône Histogramme dans le groupe Graphiques :

L’histogramme suivant sera automatiquement créé :

Cet histogramme permet de visualiser la répartition des points marqués par les joueurs.

Par exemple, nous pouvons voir :

  • 4 joueurs ont marqué entre 10 et 15 points.
  • 1 joueur a marqué entre 15 et 20 points.
  • 2 joueurs ont marqué entre 20 et 25 points.
  • 3 joueurs ont marqué entre 25 et 30 points.

Nous pouvons répéter ce processus pour chaque variable de notre ensemble de données afin de visualiser la distribution des valeurs pour chaque variable.

Étape 4 : Identifier les valeurs manquantes

On peut également utiliser la formule suivante pour compter le nombre de valeurs manquantes dans la colonne B :

=SUMPRODUCT(--NOT(ISNUMBER(B2:B11)))

Nous pouvons taper cette formule dans la cellule B19 , puis la faire glisser vers la droite pour calculer le nombre de valeurs manquantes pour chaque variable de l’ensemble de données :

À partir du résultat, nous pouvons voir :

  • Il y a 0 valeur manquante dans la colonne Points.
  • Il y a 2 valeurs manquantes dans la colonne Rebonds.
  • Il y a 1 valeur manquante dans la colonne Aides.

Nous avons maintenant terminé une analyse exploratoire de base des données sur cet ensemble de données et avons acquis une assez bonne compréhension de la façon dont les valeurs sont distribuées pour chaque variable de cet ensemble de données.

Connexe : Comment remplacer les cellules vides par zéro dans Excel

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans Excel :

Comment calculer un résumé de cinq nombres dans Excel
Comment calculer la moyenne par groupe dans Excel
Comment calculer la valeur maximale par groupe dans Excel

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *