Cdf lub pdf: jaka jest różnica?
Ten samouczek zawiera proste wyjaśnienie różnicy pomiędzy plikiem PDF (funkcją gęstości prawdopodobieństwa) a CDF (funkcją rozkładu skumulowanego) w statystykach.
Zmienne losowe
Zanim będziemy mogli zdefiniować plik PDF lub CDF, musimy najpierw zrozumieć zmienne losowe.
Zmienna losowa , zwykle oznaczana jako X, to zmienna, której wartości są numerycznymi wynikami procesu losowego. Istnieją dwa rodzaje zmiennych losowych: dyskretne i ciągłe.
Dyskretne zmienne losowe
Dyskretna zmienna losowa to zmienna, która może przyjmować tylko policzalną liczbę różnych wartości, takich jak 0, 1, 2, 3, 4, 5… 100, 1 milion itd. Oto kilka przykładów dyskretnych zmiennych losowych:
- Ile razy moneta wyrzuci reszkę po 20-krotnym rzucie.
- Liczba przypadków, w których kość ląduje na liczbie 4 po rzucie 100 razy.
Ciągłe zmienne losowe
Ciągła zmienna losowa to zmienna, która może przyjmować nieskończoną liczbę możliwych wartości. Oto kilka przykładów ciągłych zmiennych losowych:
- Wysokość osoby
- Waga zwierzęcia
- Czas potrzebny na przejście mili
Na przykład wzrost osoby może wynosić 60,2 cala, 65,2344 cala, 70,431222 cala itd. Istnieje nieskończona liczba możliwych wartości rozmiaru.
Ogólna zasada: jeśli możesz policzyć liczbę wyników, to pracujesz z dyskretną zmienną losową (np. licząc, ile razy wypadnie reszka na monecie). Ale jeśli możesz zmierzyć wynik, pracujesz z ciągłą zmienną losową (np. Pomiar, wzrost, waga, czas itp.)
Funkcje gęstości prawdopodobieństwa
Funkcja gęstości prawdopodobieństwa (pdf) informuje nas o prawdopodobieństwie, że zmienna losowa przyjmie określoną wartość.
Załóżmy na przykład, że rzucamy kostką raz. Jeśli x oznacza liczbę, na której wylądują kostki, wówczas funkcję gęstości prawdopodobieństwa wyniku można opisać w następujący sposób:
P(x < 1) : 0
P(x = 1) : 1/6
P(x = 2) : 1/6
P(x = 3) : 1/6
P(x = 4) : 1/6
P(x = 5) : 1/6
P(x = 6) : 1/6
P(x > 6) : 0
Należy zauważyć, że jest to przykład dyskretnej zmiennej losowej, ponieważ x może przyjmować tylko wartości całkowite.
W przypadku ciągłej zmiennej losowej nie możemy bezpośrednio użyć pliku PDF, ponieważ prawdopodobieństwo, że x przyjmie dokładną wartość, wynosi zero.
Załóżmy na przykład, że chcemy poznać prawdopodobieństwo, że hamburger z określonej restauracji waży ćwierć funta (0,25 funta). Ponieważ waga jest zmienną ciągłą, może przyjmować nieskończoną liczbę wartości.
Na przykład dany hamburger może w rzeczywistości ważyć 0,250001 funta, czyli 0,24 funta, czyli 0,2488 funta. Prawdopodobieństwo, że dany hamburger będzie ważył dokładnie 0,25 funta, wynosi w zasadzie zero.
Funkcje dystrybucji skumulowanej
Funkcja rozkładu skumulowanego (cdf) mówi nam o prawdopodobieństwie, że zmienna losowa przyjmie wartość mniejszą lub równą x .
Załóżmy na przykład, że rzucamy kostką raz. Jeśli pozwolimy, aby x oznaczało liczbę, na której wylądują kostki, wówczas dystrybuantę wyniku można opisać w następujący sposób:
P(x ≤ 0) : 0
P(x ≤ 1) : 1/6
P(x ≤ 2) : 2/6
P(x ≤ 3) : 3/6
P(x ≤ 4) : 4/6
P(x ≤ 5) : 5/6
P(x ≤ 6) : 6/6
P(x > 6) : 0
Zauważ, że prawdopodobieństwo, że x będzie mniejsze lub równe 6 , wynosi 6/6, co równa się 1. Dzieje się tak, ponieważ kostka wyląduje na liczbie 1, 2, 3, 4, 5 lub 6 ze 100% prawdopodobieństwem.
W tym przykładzie zastosowano dyskretną zmienną losową, ale w przypadku ciągłej zmiennej losowej można również zastosować funkcję gęstości ciągłej.
Funkcje rozkładu skumulowanego mają następujące właściwości:
- Prawdopodobieństwo, że zmienna losowa przyjmie wartość mniejszą niż najmniejsza możliwa wartość, wynosi zero. Na przykład prawdopodobieństwo, że kość wypadnie na wartości mniejszej niż 1, wynosi zero.
- Prawdopodobieństwo, że zmienna losowa przyjmie wartość mniejszą lub równą największej możliwej wartości, wynosi jeden. Na przykład prawdopodobieństwo, że kość wypadnie na wartości 1, 2, 3, 4, 5 lub 6, wynosi jeden. Musi wylądować na jednym z tych numerów.
- CDF jest zawsze niemalejący. Oznacza to, że prawdopodobieństwo, że kość wypadnie na liczbę mniejszą lub równą 1, wynosi 1/6, prawdopodobieństwo, że kość wypadnie na liczbę mniejszą lub równą 2, wynosi 2/6, prawdopodobieństwo, że wypadnie na liczbę mniejszą lub równą 2 liczba mniejsza lub równa 3 to 3/6 itd. Skumulowane prawdopodobieństwa są zawsze niemalejące.
Powiązane: Możesz użyć wykresu ostrołukowego do wizualizacji funkcji rozkładu skumulowanego.
Związek pomiędzy CDF i PDF
Z technicznego punktu widzenia funkcja gęstości prawdopodobieństwa (pdf) jest pochodną funkcji rozkładu skumulowanego (cdf).
Dodatkowo pole pod krzywą pliku PDF pomiędzy ujemną nieskończonością a x jest równe wartości x na płycie CDF.
Dokładne wyjaśnienie relacji pomiędzy plikami PDF i CDF, a także dowód, dlaczego plik PDF jest pochodną formatu CDF, można znaleźć w podręczniku statystyki.