Wat is een voorwaardelijke verdeling in statistieken?
Als X en Y twee gezamenlijk verdeelde willekeurige variabelen zijn, dan is de voorwaardelijke verdeling van Y gegeven X de waarschijnlijkheidsverdeling van Y wanneer bekend is dat X een bepaalde waarde heeft.
De volgende tweerichtingstabel toont bijvoorbeeld de resultaten van een onderzoek waarbij 100 mensen werd gevraagd welke sport zij het liefste beoefenen: honkbal, basketbal of voetbal.
Als we willen weten hoe waarschijnlijk het is dat iemand een voorkeur heeft voor een bepaalde sport, gegeven het feit dat hij een man is, dan is dit een voorbeeld van een voorwaardelijke verdeling.
Van de ene willekeurige variabele is de waarde bekend (de persoon is een man), maar de waarde van de andere willekeurige variabele is onbekend (we kennen zijn favoriete sport niet).
Om de voorwaardelijke verdeling van sportvoorkeuren onder mannen te vinden, kijken we eenvoudigweg naar de waarden van de lijn voor mannen in de tabel:
De voorwaardelijke verdeling wordt als volgt berekend:
- Mannen die de voorkeur geven aan honkbal: 13/48 = 0,2708
- Mannen die basketbal verkiezen: 15/48 = 0,3125
- Mannen die van voetbal houden: 20/48 = 0,4167
Merk op dat de som van de kansen in totaal 1 is: 13/48 + 15/48 + 20/48 = 48/48 = 1.
We kunnen deze voorwaardelijke verdeling gebruiken om vragen te beantwoorden als: gegeven het feit dat een individu een man is, wat is dan de kans dat honkbal zijn favoriete sport is?
Uit de voorwaardelijke verdeling die we eerder hebben berekend, kunnen we zien dat de waarschijnlijkheid 0,2708 is.
In technische termen: als we een voorwaardelijke verdeling berekenen, zeggen we dat we geïnteresseerd zijn in een bepaalde subpopulatie van de totale bevolking. De subpopulatie in het vorige voorbeeld bestond uit mannen:
En als we een waarschijnlijkheid willen berekenen die verband houdt met deze subpopulatie, zeggen we dat we geïnteresseerd zijn in een bepaald interessant karakter . Het interessante personage in het vorige voorbeeld was honkbal:
Om de waarschijnlijkheid te bepalen dat het gewenste kenmerk in de subpopulatie voorkomt, delen we eenvoudigweg de waarde van het gewenste kenmerk (bijvoorbeeld 13) door de totale waarden van de subpopulatie (bijvoorbeeld 48) om 13/48 = 0,2708 te krijgen.
Voorwaardelijke verdelingen en onafhankelijkheid
We kunnen zeggen dat de willekeurige variabelen X en Y onafhankelijk zijn dan en slechts dan als de voorwaardelijke verdeling van Y gegeven X voor alle mogelijke realisaties van X gelijk is aan de onvoorwaardelijke verdeling van Y.
Kunnen we in de vorige tabel bijvoorbeeld zien dat de tests ‘geeft de voorkeur aan honkbal’ en ‘mannelijk’ onafhankelijk zijn?
Om deze vraag te beantwoorden, berekenen we de volgende kansen:
- P (geeft de voorkeur aan honkbal)
- P(geeft de voorkeur aan honkbal | man) “geeft de voorkeur aan honkbal, aangezien het mannen zijn
De kans dat een bepaald individu de voorkeur geeft aan honkbal is:
- P (geeft de voorkeur aan honkbal) = 36/100 = 0,36 .
De waarschijnlijkheid dat een bepaald individu de voorkeur geeft aan honkbal, gegeven het feit dat hij een man is, is:
- P (geeft de voorkeur aan honkbal | man) = 13/48 = .2708 .
Omdat P(voorkeur voor honkbal) niet gelijk is aan P(voorkeur voor honkbal | man), zijn de willekeurige variabelen van sportvoorkeur en geslacht niet onafhankelijk.
Waarom voorwaardelijke distributies gebruiken?
Voorwaardelijke kansverdelingen zijn nuttig omdat we vaak gegevens verzamelen voor twee variabelen (zoals geslacht en sportvoorkeuren), maar we vragen over waarschijnlijkheid willen beantwoorden als we de waarde van een van de variabelen kennen .
In het vorige voorbeeld hebben we het scenario overwogen waarin we wisten dat een bepaald individu een man was en we wilden eenvoudigweg de waarschijnlijkheid weten dat dit individu de voorkeur zou geven aan honkbal.
Er zijn veel gevallen in het echte leven waarin we de waarde van een variabele kennen en een voorwaardelijke verdeling kunnen gebruiken om de waarschijnlijkheid te bepalen dat een andere variabele een bepaalde waarde aanneemt.
Aanvullende bronnen
Wat is een marginale verdeling?
Wat is een gezamenlijke kansverdeling?
Hoe u de voorwaardelijke relatieve frequentie kunt vinden in een tabel met dubbele invoer