Co to jest rozkład warunkowy w statystyce?
Jeśli X i Y są dwiema zmiennymi losowymi o wspólnym rozkładzie, wówczas rozkład warunkowy Y przy X jest rozkładem prawdopodobieństwa Y , gdy wiadomo, że X ma określoną wartość.
Na przykład poniższa dwukierunkowa tabela przedstawia wyniki ankiety, w której zapytano 100 osób, jaki sport preferują: baseball, koszykówkę czy piłkę nożną.
Jeśli chcemy poznać prawdopodobieństwo, że dana osoba preferuje określony sport, biorąc pod uwagę , że jest mężczyzną, to jest to przykład rozkładu warunkowego.
Wartość jednej zmiennej losowej jest znana (osoba jest mężczyzną), ale wartość drugiej zmiennej losowej jest nieznana (nie znamy ulubionego sportu).
Aby znaleźć warunkowy rozkład preferencji sportowych wśród mężczyzn, wystarczy spojrzeć na wartości linii dla mężczyzn w tabeli:
Rozkład warunkowy zostanie obliczony w następujący sposób:
- Mężczyźni preferujący baseball: 13/48 = 0,2708
- Mężczyźni preferujący koszykówkę: 15/48 = 0,3125
- Mężczyźni preferujący piłkę nożną: 20/48 = 0,4167
Zauważ, że suma prawdopodobieństw wynosi 1: 13/48 + 15/48 + 20/48 = 48/48 = 1.
Możemy użyć tego rozkładu warunkowego, aby odpowiedzieć na pytania takie jak: Biorąc pod uwagę, że dana osoba jest mężczyzną, jakie jest prawdopodobieństwo, że baseball jest jego ulubionym sportem?
Z rozkładu warunkowego, który obliczyliśmy wcześniej, widzimy, że prawdopodobieństwo wynosi 0,2708 .
Z technicznego punktu widzenia, gdy obliczamy rozkład warunkowy, mówimy, że interesuje nas konkretna subpopulacja całej populacji. Subpopulacja w poprzednim przykładzie składała się z mężczyzn:
A kiedy chcemy obliczyć prawdopodobieństwo powiązane z tą subpopulacją, mówimy, że interesuje nas konkretny charakter zainteresowania . Ciekawą postacią w poprzednim przykładzie był baseball:
Aby znaleźć prawdopodobieństwo, że interesująca nas cecha pojawi się w subpopulacji, po prostu dzielimy wartość interesującej nas cechy (np. 13) przez całkowite wartości subpopulacji (np. 48), aby otrzymać 13/48 = 0,2708 .
Rozkłady warunkowe i niezależność
Można powiedzieć, że zmienne losowe X i Y są niezależne wtedy i tylko wtedy, gdy warunkowy rozkład Y przy danym X jest dla wszystkich możliwych realizacji X równy bezwarunkowemu rozkładowi Y.
Czy na przykład w poprzedniej tabeli widać, że testy „preferuje baseball” i „mężczyzna” są niezależne?
Aby odpowiedzieć na to pytanie, obliczmy następujące prawdopodobieństwa:
- P (preferuje baseball)
- P(preferuje baseball | mężczyzna) „preferuje baseball, biorąc pod uwagę, że są to mężczyźni
Prawdopodobieństwo, że dana osoba preferuje baseball wynosi:
- P (preferuje baseball) = 36/100 = 0,36 .
Prawdopodobieństwo, że dana osoba preferuje baseball, biorąc pod uwagę, że jest mężczyzną, wynosi
- P (preferuje baseball | mężczyzn) = 13/48 = 0,2708 .
Ponieważ P (preferuje baseball) nie jest równe P (preferuje baseball | mężczyzna), zmienne losowe preferencji sportowych i płci nie są niezależne.
Po co stosować rozkłady warunkowe?
Warunkowe rozkłady prawdopodobieństwa są przydatne, ponieważ często zbieramy dane dla dwóch zmiennych (takich jak płeć i preferencje sportowe), ale chcemy odpowiedzieć na pytania dotyczące prawdopodobieństwa, gdy znamy wartość jednej ze zmiennych.
W poprzednim przykładzie rozważaliśmy scenariusz, w którym wiedzieliśmy, że dana osoba jest mężczyzną i chcieliśmy po prostu poznać prawdopodobieństwo, że ta osoba woli baseball.
W prawdziwym życiu istnieje wiele przypadków, w których znamy wartość zmiennej i możemy użyć rozkładu warunkowego, aby znaleźć prawdopodobieństwo, że inna zmienna przyjmie określoną wartość.
Dodatkowe zasoby
Co to jest dystrybucja krańcowa?
Co to jest łączny rozkład prawdopodobieństwa?
Jak znaleźć warunkową częstotliwość względną w tabeli z podwójnym wpisem