Cdf lub pdf: jaka jest różnica?


Ten samouczek zawiera proste wyjaśnienie różnicy pomiędzy plikiem PDF (funkcją gęstości prawdopodobieństwa) a CDF (funkcją rozkładu skumulowanego) w statystykach.

Zmienne losowe

Zanim będziemy mogli zdefiniować plik PDF lub CDF, musimy najpierw zrozumieć zmienne losowe.

Zmienna losowa , zwykle oznaczana jako X, to zmienna, której wartości są numerycznymi wynikami procesu losowego. Istnieją dwa rodzaje zmiennych losowych: dyskretne i ciągłe.

Dyskretne zmienne losowe

Dyskretna zmienna losowa to zmienna, która może przyjmować tylko policzalną liczbę różnych wartości, takich jak 0, 1, 2, 3, 4, 5… 100, 1 milion itd. Oto kilka przykładów dyskretnych zmiennych losowych:

  • Ile razy moneta wyrzuci reszkę po 20-krotnym rzucie.
  • Liczba przypadków, w których kość ląduje na liczbie 4 po rzucie 100 razy.

Ciągłe zmienne losowe

Ciągła zmienna losowa to zmienna, która może przyjmować nieskończoną liczbę możliwych wartości. Oto kilka przykładów ciągłych zmiennych losowych:

  • Wysokość osoby
  • Waga zwierzęcia
  • Czas potrzebny na przejście mili

Na przykład wzrost osoby może wynosić 60,2 cala, 65,2344 cala, 70,431222 cala itd. Istnieje nieskończona liczba możliwych wartości rozmiaru.

Ogólna zasada: jeśli możesz policzyć liczbę wyników, to pracujesz z dyskretną zmienną losową (np. licząc, ile razy wypadnie reszka na monecie). Ale jeśli możesz zmierzyć wynik, pracujesz z ciągłą zmienną losową (np. Pomiar, wzrost, waga, czas itp.)

Funkcje gęstości prawdopodobieństwa

Funkcja gęstości prawdopodobieństwa (pdf) informuje nas o prawdopodobieństwie, że zmienna losowa przyjmie określoną wartość.

Załóżmy na przykład, że rzucamy kostką raz. Jeśli x oznacza liczbę, na której wylądują kostki, wówczas funkcję gęstości prawdopodobieństwa wyniku można opisać w następujący sposób:

P(x < 1) : 0

P(x = 1) : 1/6

P(x = 2) : 1/6

P(x = 3) : 1/6

P(x = 4) : 1/6

P(x = 5) : 1/6

P(x = 6) : 1/6

P(x > 6) : 0

Należy zauważyć, że jest to przykład dyskretnej zmiennej losowej, ponieważ x może przyjmować tylko wartości całkowite.

W przypadku ciągłej zmiennej losowej nie możemy bezpośrednio użyć pliku PDF, ponieważ prawdopodobieństwo, że x przyjmie dokładną wartość, wynosi zero.

Załóżmy na przykład, że chcemy poznać prawdopodobieństwo, że hamburger z określonej restauracji waży ćwierć funta (0,25 funta). Ponieważ waga jest zmienną ciągłą, może przyjmować nieskończoną liczbę wartości.

Na przykład dany hamburger może w rzeczywistości ważyć 0,250001 funta, czyli 0,24 funta, czyli 0,2488 funta. Prawdopodobieństwo, że dany hamburger będzie ważył dokładnie 0,25 funta, wynosi w zasadzie zero.

Funkcje dystrybucji skumulowanej

Funkcja rozkładu skumulowanego (cdf) mówi nam o prawdopodobieństwie, że zmienna losowa przyjmie wartość mniejszą lub równą x .

Załóżmy na przykład, że rzucamy kostką raz. Jeśli pozwolimy, aby x oznaczało liczbę, na której wylądują kostki, wówczas dystrybuantę wyniku można opisać w następujący sposób:

P(x ≤ 0) : 0

P(x ≤ 1) : 1/6

P(x ≤ 2) : 2/6

P(x ≤ 3) : 3/6

P(x ≤ 4) : 4/6

P(x ≤ 5) : 5/6

P(x ≤ 6) : 6/6

P(x > 6) : 0

Zauważ, że prawdopodobieństwo, że x będzie mniejsze lub równe 6 , wynosi 6/6, co równa się 1. Dzieje się tak, ponieważ kostka wyląduje na liczbie 1, 2, 3, 4, 5 lub 6 ze 100% prawdopodobieństwem.

W tym przykładzie zastosowano dyskretną zmienną losową, ale w przypadku ciągłej zmiennej losowej można również zastosować funkcję gęstości ciągłej.

Funkcje rozkładu skumulowanego mają następujące właściwości:

  • Prawdopodobieństwo, że zmienna losowa przyjmie wartość mniejszą niż najmniejsza możliwa wartość, wynosi zero. Na przykład prawdopodobieństwo, że kość wypadnie na wartości mniejszej niż 1, wynosi zero.
  • Prawdopodobieństwo, że zmienna losowa przyjmie wartość mniejszą lub równą największej możliwej wartości, wynosi jeden. Na przykład prawdopodobieństwo, że kość wypadnie na wartości 1, 2, 3, 4, 5 lub 6, wynosi jeden. Musi wylądować na jednym z tych numerów.
  • CDF jest zawsze niemalejący. Oznacza to, że prawdopodobieństwo, że kość wypadnie na liczbę mniejszą lub równą 1, wynosi 1/6, prawdopodobieństwo, że kość wypadnie na liczbę mniejszą lub równą 2, wynosi 2/6, prawdopodobieństwo, że wypadnie na liczbę mniejszą lub równą 2 liczba mniejsza lub równa 3 to 3/6 itd. Skumulowane prawdopodobieństwa są zawsze niemalejące.

Powiązane: Możesz użyć wykresu ostrołukowego do wizualizacji funkcji rozkładu skumulowanego.

Związek pomiędzy CDF i PDF

Z technicznego punktu widzenia funkcja gęstości prawdopodobieństwa (pdf) jest pochodną funkcji rozkładu skumulowanego (cdf).

Dodatkowo pole pod krzywą pliku PDF pomiędzy ujemną nieskończonością a x jest równe wartości x na płycie CDF.

Dokładne wyjaśnienie relacji pomiędzy plikami PDF i CDF, a także dowód, dlaczego plik PDF jest pochodną formatu CDF, można znaleźć w podręczniku statystyki.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *