Qu’est-ce qu’une distribution multimodale ?
Une distribution multimodale est une distribution de probabilité comportant deux modes ou plus.
Si vous créez un histogramme pour visualiser une distribution multimodale, vous remarquerez qu’elle comporte plusieurs pics :
Si une distribution comporte exactement deux pics, elle est alors considérée comme une distribution bimodale , qui est un type spécifique de distribution multimodale.
Cela contraste avec une distribution unimodale, qui n’a qu’un seul pic :
Bien que les distributions unimodales comme la distribution normale soient le plus souvent utilisées pour expliquer des sujets en statistiques, les distributions multimodales apparaissent en fait assez souvent dans la pratique, il est donc utile de savoir comment les reconnaître et les analyser.
Exemples de distributions multimodales
Voici quelques exemples de distributions multimodales.
Exemple 1 : Répartition des résultats des examens
Supposons qu’un professeur donne un examen à sa classe. Certains étudiants ont étudié, d’autres non. Lorsque le professeur crée un histogramme des résultats des examens, il suit une distribution multimodale avec un pic autour des scores faibles pour les étudiants qui n’ont pas étudié et un autre pic autour des scores élevés pour les étudiants qui ont étudié :
Exemple 2 : Hauteur de différentes espèces végétales
Supposons qu’un scientifique fasse le tour d’un champ et mesure la hauteur de différentes plantes. Sans s’en rendre compte, elle mesure la taille de trois espèces différentes : une assez grande, une autre de taille moyenne et une autre assez petite.
Lorsqu’elle crée un histogramme pour visualiser la répartition des hauteurs, elle constate qu’il est multimodal : chaque pic représente la hauteur la plus courante des trois espèces différentes.
Exemple 3 : Répartition des clients
Un propriétaire de restaurant suit le nombre de clients qui visitent chaque heure. Lorsqu’il crée un histogramme pour visualiser la répartition des clients, il constate que la distribution est multimodale : il y a un pic pendant les heures de déjeuner et un autre pic pendant les heures de dîner.
Quelles sont les causes des distributions multimodales ?
Il existe généralement l’une des deux causes sous-jacentes aux distributions multimodales :
1. Plusieurs groupes sont regroupés.
Des distributions multimodales peuvent se produire lorsque vous collectez des données pour plusieurs groupes sans vous en rendre compte.
Par exemple, si un scientifique mesure sans le savoir la hauteur de trois espèces végétales différentes situées dans le même champ, la répartition de toutes les plantes apparaîtra multimodale lorsqu’elles seront placées sur le même histogramme.
2. Il existe un phénomène sous-jacent.
Des distributions multimodales peuvent également se produire en raison de certains phénomènes sous-jacents.
Par exemple, le nombre de clients qui visitent un restaurant chaque heure suit une distribution multimodale puisque les gens ont tendance à manger au restaurant à deux moments distincts : le déjeuner et le dîner. Ce comportement humain sous-jacent est à l’origine de la distribution multimodale.
Comment analyser les distributions multimodales
Nous décrivons souvent les distributions en utilisant la moyenne ou la médiane car cela nous donne une idée de l’endroit où se trouve le « centre » de la distribution.
Malheureusement, la moyenne et la médiane ne sont pas utiles à connaître pour une distribution bimodale. Par exemple, la note moyenne à l’examen des étudiants de l’exemple ci-dessus est de 81 :
Cependant, très peu d’élèves ont obtenu un score proche de 81. Dans ce cas, la moyenne est trompeuse. La plupart des étudiants ont en fait obtenu un score d’environ 74 ou 88.
Une meilleure façon d’analyser et d’interpréter les distributions bimodales consiste simplement à diviser les données en deux groupes distincts, puis à analyser l’emplacement du centre et la répartition pour chaque groupe individuellement.
Par exemple, nous pouvons diviser les résultats des examens en « scores faibles » et « scores élevés », puis trouver la moyenne et l’écart type pour chaque groupe.
Lors du calcul de statistiques récapitulatives pour une distribution donnée comme la moyenne, la médiane ou l’écart type, assurez-vous de visualiser la distribution pour déterminer si elle est unimodale ou multimodale.
Si une distribution est multimodale, il peut être trompeur de la décrire en utilisant une seule moyenne, médiane ou écart type.