Rozkład prawdopodobieństwa
W tym artykule wyjaśniono, jakie rozkłady prawdopodobieństwa występują w statystyce. Znajdziesz więc definicję rozkładu prawdopodobieństwa, przykłady rozkładów prawdopodobieństwa i różne typy rozkładów prawdopodobieństwa.
Co to jest rozkład prawdopodobieństwa?
Rozkład prawdopodobieństwa jest funkcją określającą prawdopodobieństwo wystąpienia każdej wartości zmiennej losowej . Mówiąc najprościej, rozkład prawdopodobieństwa jest funkcją matematyczną opisującą prawdopodobieństwa wszystkich możliwych wyników losowego eksperymentu.
Na przykład niech
Dlatego rozkłady prawdopodobieństwa są często stosowane w teorii prawdopodobieństwa i statystyce, ponieważ służą do obliczania prawdopodobieństw różnych zdarzeń w przestrzeni próbki .
Rodzaje rozkładów prawdopodobieństwa
Rozkłady prawdopodobieństwa można podzielić na dwa szerokie typy: rozkłady dyskretne i rozkłady ciągłe.
- Dyskretny rozkład prawdopodobieństwa: Rozkład może przyjmować tylko policzalną liczbę wartości w przedziale. Zwykle dyskretne rozkłady prawdopodobieństwa mogą przyjmować tylko wartości całkowite, to znaczy nie mają miejsc dziesiętnych.
- Ciągły rozkład prawdopodobieństwa: Rozkład może przyjmować nieskończoną liczbę wartości w przedziale. Ogólnie rzecz biorąc, ciągłe rozkłady prawdopodobieństwa mogą przyjmować wartości dziesiętne.
Dyskretne rozkłady prawdopodobieństwa
Dyskretny rozkład prawdopodobieństwa to rozkład definiujący prawdopodobieństwa dyskretnej zmiennej losowej. Dlatego dyskretny rozkład prawdopodobieństwa może przyjmować tylko skończoną liczbę wartości (zwykle wartości całkowite).
Dyskretny rozkład równomierny
Dyskretny rozkład równomierny to dyskretny rozkład prawdopodobieństwa, w którym wszystkie wartości są jednakowo prawdopodobne, to znaczy w dyskretnym rozkładzie równomiernym wszystkie wartości mają to samo prawdopodobieństwo wystąpienia.
Na przykład rzut kostką można zdefiniować za pomocą dyskretnego równomiernego rozkładu, ponieważ wszystkie możliwe wyniki (1, 2, 3, 4, 5 lub 6) mają to samo prawdopodobieństwo wystąpienia.
Ogólnie rzecz biorąc, dyskretny rozkład równomierny ma dwa charakterystyczne parametry aib , które określają zakres możliwych wartości , jakie może przyjąć rozkład. Zatem, gdy zmienna jest zdefiniowana przez dyskretny rozkład równomierny, jest zapisywana jako Uniform(a,b) .
Dyskretny rozkład równomierny można wykorzystać do opisania eksperymentów losowych, ponieważ jeśli wszystkie wyniki mają to samo prawdopodobieństwo, oznacza to, że eksperyment jest losowy.
Rozkład Bernoulliego
Rozkład Bernoulliego , znany również jako rozkład dychotomiczny , to rozkład prawdopodobieństwa reprezentujący zmienną dyskretną, która może mieć tylko dwa wyniki: „sukces” lub „porażka”.
W rozkładzie Bernoulliego „sukces” jest oczekiwanym przez nas wynikiem i ma wartość 1, natomiast wynik „porażki” jest wynikiem innym niż oczekiwany i ma wartość 0. Zatem, jeśli prawdopodobieństwo wyniku „ sukces” wynosi p , prawdopodobieństwo wyniku „porażki” wynosi q=1-p .
Rozkład Bernoulliego został nazwany na cześć szwajcarskiego statystyka Jacoba Bernoulliego.
W statystyce rozkład Bernoulliego ma głównie jedno zastosowanie: określanie prawdopodobieństw eksperymentów, w których możliwe są tylko dwa wyniki: sukces i porażka. Zatem eksperyment wykorzystujący rozkład Bernoulliego nazywany jest testem Bernoulliego lub eksperymentem Bernoulliego.
Rozkład dwumianowy
Rozkład dwumianowy , zwany także rozkładem dwumianowym , to rozkład prawdopodobieństwa, który liczy liczbę sukcesów podczas wykonywania serii niezależnych, dychotomicznych eksperymentów ze stałym prawdopodobieństwem sukcesu. Innymi słowy, rozkład dwumianowy to rozkład opisujący liczbę pomyślnych wyników sekwencji prób Bernoulliego.
Na przykład liczba „reszek” pojawiających się po 25-krotnym rzucie monetą jest rozkładem dwumianowym.
Ogólnie rzecz biorąc, całkowitą liczbę przeprowadzonych eksperymentów definiuje się za pomocą parametru n , natomiast p jest prawdopodobieństwem powodzenia każdego eksperymentu. Zatem zmienną losową o rozkładzie dwumianowym zapisuje się w następujący sposób:
Należy zauważyć, że w rozkładzie dwumianowym dokładnie ten sam eksperyment powtarza się n razy, a eksperymenty są od siebie niezależne, zatem prawdopodobieństwo powodzenia każdego eksperymentu jest takie samo (p) .
Dystrybucja ryb
Rozkład Poissona to rozkład prawdopodobieństwa, który określa prawdopodobieństwo wystąpienia danej liczby zdarzeń w pewnym okresie czasu. Innymi słowy, rozkład Poissona służy do modelowania zmiennych losowych opisujących liczbę powtórzeń zjawiska w danym przedziale czasu.
Na przykład liczba połączeń odbieranych przez centralę telefoniczną na minutę jest dyskretną zmienną losową, którą można zdefiniować za pomocą rozkładu Poissona.
Rozkład Poissona ma charakterystyczny parametr, oznaczony grecką literą λ, który wskazuje, ile razy przewidywane jest wystąpienie badanego zdarzenia w danym przedziale.
rozkład wielomianowy
Rozkład wielomianowy (lub rozkład wielomianowy ) to rozkład prawdopodobieństwa opisujący prawdopodobieństwo wystąpienia kilku wzajemnie wykluczających się zdarzeń określoną liczbę razy po kilku próbach.
Oznacza to, że jeśli w wyniku losowego eksperymentu mogą zaistnieć trzy lub więcej wykluczających się zdarzeń i znane jest prawdopodobieństwo wystąpienia każdego zdarzenia z osobna, do obliczenia prawdopodobieństwa, że po przeprowadzeniu wielu eksperymentów wystąpi określona liczba zdarzeń, stosuje się rozkład wielomianowy. czas za każdym razem.
Rozkład wielomianowy jest zatem uogólnieniem rozkładu dwumianowego.
rozkład geometryczny
Rozkład geometryczny to rozkład prawdopodobieństwa, który określa liczbę prób Bernoulliego wymaganych do uzyskania pierwszego pomyślnego wyniku. Oznacza to, że rozkład geometryczny modeluje procesy, w których eksperymenty Bernoulliego są powtarzane, aż jeden z nich uzyska pozytywny wynik.
Na przykład liczba samochodów przejeżdżających autostradą do momentu zobaczenia żółtego samochodu to rozkład geometryczny.
Pamiętaj, że test Bernoulliego to eksperyment, który ma dwa możliwe wyniki: „sukces” i „porażkę”. Zatem jeśli prawdopodobieństwo „sukcesu” wynosi p , prawdopodobieństwo „porażki” wynosi q=1-p .
Rozkład geometryczny zależy zatem od parametru p , który oznacza prawdopodobieństwo powodzenia wszystkich przeprowadzonych eksperymentów. Co więcej, prawdopodobieństwo p jest takie samo dla wszystkich eksperymentów.
ujemny rozkład dwumianowy
Ujemny rozkład dwumianowy to rozkład prawdopodobieństwa opisujący liczbę prób Bernoulliego wymaganych do uzyskania danej liczby pozytywnych wyników.
Dlatego ujemny rozkład dwumianowy ma dwa charakterystyczne parametry: r to liczba pożądanych pomyślnych wyników, a p to prawdopodobieństwo sukcesu dla każdego przeprowadzonego eksperymentu Bernoulliego.
Zatem ujemny rozkład dwumianowy definiuje proces, w którym przeprowadza się tyle prób Bernoulliego, ile potrzeba do uzyskania pozytywnych wyników . Co więcej, wszystkie te próby Bernoulliego są niezależne i mają stałe prawdopodobieństwo powodzenia .
Na przykład zmienna losowa, która ma ujemny rozkład dwumianowy, oznacza, ile razy należy rzucić kostką, aby liczba 6 została wyrzucona trzykrotnie.
rozkład hipergeometryczny
Rozkład hipergeometryczny to rozkład prawdopodobieństwa opisujący liczbę pomyślnych przypadków w losowej ekstrakcji bez zastępowania n elementów z populacji.
Oznacza to, że rozkład hipergeometryczny służy do obliczenia prawdopodobieństwa uzyskania x sukcesów podczas wyodrębniania n elementów z populacji bez zastępowania żadnego z nich.
Dlatego rozkład hipergeometryczny ma trzy parametry:
- N : to liczba elementów w populacji (N = 0, 1, 2,…).
- K : to maksymalna liczba przypadków sukcesu (K = 0, 1, 2,…,N). Ponieważ w rozkładzie hipergeometrycznym element można uznać jedynie za „sukces” lub „porażkę”, NK to maksymalna liczba przypadków awarii.
- n : liczba wykonanych pobrań bez zamiany.
Ciągłe rozkłady prawdopodobieństwa
Ciągły rozkład prawdopodobieństwa to taki, który może przyjmować dowolną wartość w przedziale, w tym wartości dziesiętne. Dlatego ciągły rozkład prawdopodobieństwa definiuje prawdopodobieństwa ciągłej zmiennej losowej.
równomierny i ciągły rozkład
Ciągły rozkład równomierny , zwany także rozkładem prostokątnym , jest rodzajem ciągłego rozkładu prawdopodobieństwa, w którym wszystkie wartości mają to samo prawdopodobieństwo wystąpienia. Innymi słowy, ciągły rozkład równomierny to rozkład, w którym prawdopodobieństwo jest równomiernie rozłożone w pewnym przedziale.
Ciągły rozkład równomierny służy do opisu zmiennych ciągłych, które mają stałe prawdopodobieństwo. Podobnie ciągły rozkład równomierny służy do definiowania procesów losowych, ponieważ jeśli wszystkie wyniki mają to samo prawdopodobieństwo, oznacza to, że wynik jest losowy.
Ciągły rozkład równomierny ma dwa charakterystyczne parametry, aib , które definiują przedział równoważnego prawdopodobieństwa. Zatem symbolem ciągłego rozkładu równomiernego jest U(a,b) , gdzie a i b są charakterystycznymi wartościami rozkładu.
Na przykład, jeśli wynik losowego eksperymentu może przyjąć dowolną wartość z zakresu od 5 do 9, a wszystkie możliwe wyniki mają to samo prawdopodobieństwo wystąpienia, eksperyment można symulować za pomocą ciągłego równomiernego rozkładu U(5,9).
Normalna dystrybucja
Rozkład normalny to ciągły rozkład prawdopodobieństwa, którego wykres ma kształt dzwonu i jest symetryczny względem średniej. W statystyce rozkład normalny służy do modelowania zjawisk o bardzo różnych charakterystykach, dlatego ten rozkład jest tak ważny.
W rzeczywistości w statystyce rozkład normalny jest zdecydowanie najważniejszym rozkładem wszystkich rozkładów prawdopodobieństwa, ponieważ nie tylko może modelować dużą liczbę zjawisk w świecie rzeczywistym, ale rozkład normalny można również wykorzystać do aproksymacji innych typów rozkładów dystrybucje. pod pewnymi warunkami.
Symbolem rozkładu normalnego jest wielka litera N. Zatem, aby wskazać, że zmienna ma rozkład normalny, jest ona oznaczona literą N, a wartości jej średniej arytmetycznej i odchylenia standardowego są dodawane w nawiasach.
Rozkład normalny ma wiele różnych nazw, w tym rozkład Gaussa , rozkład Gaussa i rozkład Laplace’a-Gaussa .
Rozkład lognormalny
Rozkład lognormalny lub rozkład lognormalny to rozkład prawdopodobieństwa definiujący zmienną losową, której logarytm ma rozkład normalny.
Zatem jeśli zmienna X ma rozkład normalny, to funkcja wykładnicza e x ma rozkład logarytmiczno-normalny.
Należy pamiętać, że rozkład lognormalny można zastosować tylko wtedy, gdy wartości zmiennej są dodatnie, ponieważ logarytm jest funkcją, która akceptuje tylko jeden dodatni argument.
Wśród różnych zastosowań rozkładu lognormalnego w statystyce wyróżniamy wykorzystanie tego rozkładu do analizy inwestycji finansowych i przeprowadzania analiz niezawodności.
Rozkład lognormalny jest również znany jako rozkład Tinauta , czasami zapisywany także jako rozkład lognormalny lub rozkład logarytmiczno-normalny .
Rozkład chi-kwadrat
Rozkład chi-kwadrat jest rozkładem prawdopodobieństwa, którego symbolem jest χ². Dokładniej, rozkład chi-kwadrat jest sumą kwadratów k niezależnych zmiennych losowych o rozkładzie normalnym.
Zatem rozkład Chi-kwadrat ma k stopni swobody. Dlatego rozkład Chi-kwadrat ma tyle stopni swobody, ile reprezentuje suma kwadratów zmiennych o rozkładzie normalnym.
Rozkład Chi-kwadrat jest również znany jako rozkład Pearsona .
Rozkład chi-kwadrat jest szeroko stosowany we wnioskowaniu statystycznym, na przykład w testowaniu hipotez i przedziałach ufności. Zobaczymy poniżej, jakie są zastosowania tego typu rozkładu prawdopodobieństwa.
Rozkład t-Studenta
Rozkład t-Studenta jest rozkładem prawdopodobieństwa szeroko stosowanym w statystyce. W szczególności rozkład t-Studenta jest używany w teście t-Studenta w celu określenia różnicy między średnimi z dwóch próbek i ustalenia przedziałów ufności.
Rozkład t-Studenta został opracowany przez statystyka Williama Sealy’ego Gosseta w 1908 roku pod pseudonimem „Student”.
Rozkład t-Studenta definiuje się jako liczbę stopni swobody otrzymaną poprzez odjęcie jednej jednostki od całkowitej liczby obserwacji. Zatem wzór na określenie stopni swobody rozkładu t-Studenta to ν=n-1 .
Dystrybucja Snedecor F
Rozkład F Snedecora , zwany także rozkładem F Fishera – Snedecora lub po prostu rozkładem F , jest ciągłym rozkładem prawdopodobieństwa stosowanym we wnioskowaniu statystycznym, szczególnie w analizie wariancji.
Jedną z właściwości rozkładu Snedecora F jest to, że jest on zdefiniowany przez wartość dwóch rzeczywistych parametrów m i n , które wskazują jego stopnie swobody. Zatem symbolem rozkładu Snedecora F jest F m, n , gdzie m i n są parametrami definiującymi rozkład.
Rozkład Fishera-Snedecora F swoją nazwę zawdzięcza angielskiemu statystykowi Ronaldowi Fisherowi i amerykańskiemu statystykowi George’owi Snedecorowi.
W statystyce rozkład Fishera-Snedecora F ma różne zastosowania. Na przykład rozkład F Fishera-Snedecora wykorzystuje się do porównywania różnych modeli regresji liniowej, a ten rozkład prawdopodobieństwa wykorzystuje się w analizie wariancji (ANOVA).
rozkład wykładniczy
Rozkład wykładniczy jest ciągłym rozkładem prawdopodobieństwa stosowanym do modelowania czasu oczekiwania na wystąpienie zjawiska losowego.
Dokładniej, rozkład wykładniczy umożliwia opisanie czasu oczekiwania pomiędzy dwoma zjawiskami, który jest zgodny z rozkładem Poissona. Dlatego rozkład wykładniczy jest ściśle powiązany z rozkładem Poissona.
Rozkład wykładniczy ma charakterystyczny parametr, oznaczony grecką literą λ, który wskazuje, ile razy przewidywane jest wystąpienie badanego zdarzenia w danym okresie.
Podobnie rozkład wykładniczy jest również używany do modelowania czasu do wystąpienia awarii. Dlatego rozkład wykładniczy ma kilka zastosowań w teorii niezawodności i przetrwania.
Dystrybucja wersji beta
Rozkład beta jest rozkładem prawdopodobieństwa określonym w przedziale (0,1) i sparametryzowanym dwoma dodatnimi parametrami: α i β. Innymi słowy, wartości rozkładu beta zależą od parametrów α i β.
Dlatego rozkład beta służy do definiowania ciągłych zmiennych losowych, których wartość mieści się w przedziale od 0 do 1.
Istnieje kilka oznaczeń wskazujących, że ciągła zmienna losowa podlega rozkładowi beta. Najczęstsze to:
W statystykach dystrybucja beta ma bardzo różnorodne zastosowania. Na przykład rozkład beta służy do badania różnic procentowych w różnych próbkach. Podobnie w zarządzaniu projektami dystrybucja beta służy do przeprowadzania analizy Pert.
Rozkład gamma
Rozkład gamma jest ciągłym rozkładem prawdopodobieństwa zdefiniowanym przez dwa charakterystyczne parametry, α i λ. Inaczej mówiąc, rozkład gamma zależy od wartości jego dwóch parametrów: α jest parametrem kształtu, a λ jest parametrem skali.
Symbolem rozkładu gamma jest wielka grecka litera Γ. Zatem, jeśli zmienna losowa ma rozkład gamma, zapisuje się ją w następujący sposób:
Rozkład gamma można również parametryzować za pomocą parametru kształtu k = α i parametru odwrotnej skali θ = 1/λ. We wszystkich przypadkach dwa parametry definiujące rozkład gamma są dodatnimi liczbami rzeczywistymi.
Zazwyczaj rozkład gamma jest używany do modelowania zbiorów danych skośnych w prawo, dzięki czemu po lewej stronie wykresu występuje większa koncentracja danych. Na przykład rozkład gamma służy do modelowania niezawodności komponentów elektrycznych.
Dystrybucja Weibula
Rozkład Weibulla jest ciągłym rozkładem prawdopodobieństwa zdefiniowanym przez dwa charakterystyczne parametry: parametr kształtu α i parametr skali λ.
W statystyce rozkład Weibulla jest używany głównie do analizy przeżycia. Podobnie rozkład Weibulla ma wiele zastosowań w różnych dziedzinach.
Zdaniem autorów rozkład Weibulla można również parametryzować za pomocą trzech parametrów. Następnie dodawany jest trzeci parametr zwany wartością progową, który wskazuje odciętą, od której zaczyna się wykres rozkładu.
Rozkład Weibulla został nazwany na cześć Szweda Waloddiego Weibulla, który szczegółowo go opisał w 1951 r. Jednakże rozkład Weibulla został odkryty przez Maurice’a Frécheta w 1927 r., a po raz pierwszy zastosowany przez Rosina i Rammlera w 1933 r.
Rozkład Pareto
Rozkład Pareto to ciągły rozkład prawdopodobieństwa stosowany w statystyce do modelowania zasady Pareto. Zatem rozkład Pareto jest rozkładem prawdopodobieństwa, który ma kilka wartości, których prawdopodobieństwo wystąpienia jest znacznie większe niż pozostałych wartości.
Pamiętaj, że prawo Pareto, zwane także zasadą 80-20, jest zasadą statystyczną, która mówi, że za większość przyczyn zjawiska odpowiada niewielka część populacji.
Rozkład Pareto ma dwa charakterystyczne parametry: parametr skali x m i parametr kształtu α.
Pierwotnie rozkład Pareto był używany do opisania rozkładu bogactwa w populacji, ponieważ większość z niego wynikała z małej części populacji. Ale obecnie rozkład Pareto ma wiele zastosowań, na przykład w kontroli jakości, w ekonomii, w nauce, w obszarze społecznym itp.