Co to jest dystrybucja multimodalna?
Rozkład multimodalny to rozkład prawdopodobieństwa z dwoma lub większą liczbą postaci.
Jeśli utworzysz histogram w celu wizualizacji rozkładu multimodalnego, zauważysz, że ma on kilka pików:
Jeśli rozkład ma dokładnie dwa piki, wówczas uważa się go za rozkład bimodalny , który jest specyficznym typem rozkładu multimodalnego.
Kontrastuje to z rozkładem jednomodalnym, który ma tylko jeden pik:
Chociaż rozkłady jednomodalne, takie jak rozkład normalny , są najczęściej używane do wyjaśniania zagadnień statystycznych, w praktyce rozkłady multimodalne pojawiają się dość często, dlatego warto wiedzieć, jak je rozpoznawać i analizować.
Przykłady rozkładów multimodalnych
Oto kilka przykładów dystrybucji multimodalnych.
Przykład 1: Podział wyników egzaminów
Załóżmy, że profesor zdaje egzamin swojej klasie. Niektórzy studenci studiowali, inni nie. Kiedy profesor tworzy histogram wyników egzaminów, przedstawia on rozkład multimodalny ze szczytem wokół niskich wyników uczniów, którzy się nie uczyli, i drugim szczytem wokół wysokich wyników studentów, którzy studiowali:
Przykład 2: Wysokość różnych gatunków roślin
Załóżmy, że naukowiec spaceruje po polu i mierzy wysokość różnych roślin. Nie zdając sobie z tego sprawy, mierzy wielkość trzech różnych gatunków: jednego dość dużego, drugiego średniej wielkości i jeszcze jednego całkiem małego.
Kiedy tworzy histogram, aby zwizualizować rozkład wysokości, stwierdza, że jest on wielomodalny: każdy szczyt reprezentuje najczęstszy wzrost trzech różnych gatunków.
Przykład 3: Dystrybucja klientów
Właściciel restauracji śledzi liczbę klientów odwiedzających każdą godzinę. Kiedy tworzy histogram w celu wizualizacji rozmieszczenia klientów, widzi, że rozkład jest multimodalny: szczyt występuje w godzinach lunchu, a kolejny szczyt w godzinach kolacji.
Jakie są przyczyny dystrybucji multimodalnych?
Zwykle istnieje jedna z dwóch przyczyn leżących u podstaw rozkładów multimodalnych:
1. Kilka grup jest zgrupowanych razem.
Rozkłady multimodalne mogą wystąpić, gdy zbierasz dane dla wielu grup, nie zdając sobie z tego sprawy.
Na przykład, jeśli naukowiec nieświadomie zmierzy wysokość trzech różnych gatunków roślin znajdujących się na tym samym polu, rozmieszczenie wszystkich roślin będzie wyglądać na wielomodalne, jeśli zostaną umieszczone na tym samym histogramie.
2. Istnieje pewne podstawowe zjawisko.
Rozkłady multimodalne mogą również wystąpić z powodu pewnych podstawowych zjawisk.
Na przykład liczba klientów, którzy odwiedzają restaurację co godzinę, podlega rozkładowi multimodalnemu, ponieważ ludzie jadą w restauracjach zazwyczaj o dwóch różnych porach: lunchu i kolacji. To podstawowe ludzkie zachowanie jest źródłem dystrybucji multimodalnej.
Jak analizować rozkłady multimodalne
Często opisujemy rozkłady za pomocą średniej lub mediany, ponieważ daje nam to pojęcie, gdzie znajduje się „środek” rozkładu.
Niestety, znajomość średniej i mediany nie jest przydatna w przypadku rozkładu bimodalnego. Na przykład średni wynik egzaminu uczniów w powyższym przykładzie wynosi 81:
Jednak bardzo niewielu uczniów uzyskało wynik w okolicach 81. W tym przypadku średnia jest myląca. Większość uczniów faktycznie uzyskała wynik około 74 lub 88.
Lepszym sposobem analizowania i interpretowania rozkładów bimodalnych jest po prostu podzielenie danych na dwie odrębne grupy, a następnie przeanalizowanie położenia środka i rozkładu dla każdej grupy indywidualnie.
Na przykład możemy podzielić wyniki egzaminu na „niskie wyniki” i „wysokie wyniki”, a następnie znaleźć średnią i odchylenie standardowe dla każdej grupy.
Obliczając statystyki podsumowujące dla danego rozkładu, takie jak średnia, mediana lub odchylenie standardowe, pamiętaj o wizualizacji rozkładu, aby określić, czy jest on jednomodalny, czy wielomodalny.
Jeśli rozkład jest multimodalny, opisywanie go przy użyciu pojedynczej średniej, mediany lub odchylenia standardowego może być mylące.