Was ist eine bedingte verteilung in der statistik?


Wenn X und Y zwei gemeinsam verteilte Zufallsvariablen sind, dann ist die bedingte Verteilung von Y bei gegebenem X die Wahrscheinlichkeitsverteilung von Y , wenn bekannt ist, dass X einen bestimmten Wert hat.

Die folgende Zwei-Wege-Tabelle zeigt beispielsweise die Ergebnisse einer Umfrage, bei der 100 Personen gefragt wurden, welche Sportart sie bevorzugen: Baseball, Basketball oder Fußball.

Wenn wir die Wahrscheinlichkeit wissen wollen, dass eine Person eine bestimmte Sportart bevorzugt, vorausgesetzt , sie ist ein Mann, dann ist dies ein Beispiel für eine bedingte Verteilung.

Der Wert einer Zufallsvariablen ist bekannt (die Person ist ein Mann), der Wert der anderen Zufallsvariablen ist jedoch unbekannt (wir kennen seinen Lieblingssport nicht).

Um die bedingte Verteilung der Sportpräferenzen bei Männern zu ermitteln, schauen wir uns einfach die Werte der Linie für Männer in der Tabelle an:

Beispiel für eine bedingte Verteilung

Die bedingte Verteilung würde wie folgt berechnet:

  • Männer, die Baseball bevorzugen: 13/48 = 0,2708
  • Männer, die Basketball bevorzugen: 15/48 = 0,3125
  • Männer, die Fußball bevorzugen: 20/48 = 0,4167

Beachten Sie, dass die Summe der Wahrscheinlichkeiten 1 beträgt: 13/48 + 15/48 + 20/48 = 48/48 = 1.

Wir können diese bedingte Verteilung verwenden, um Fragen zu beantworten wie: Wie hoch ist die Wahrscheinlichkeit, dass Baseball sein Lieblingssport ist, wenn man davon ausgeht, dass eine Person männlich ist?

Aus der zuvor berechneten bedingten Verteilung können wir ersehen, dass die Wahrscheinlichkeit 0,2708 beträgt.

Technisch gesehen sagen wir bei der Berechnung einer bedingten Verteilung, dass wir an einer bestimmten Teilpopulation der Gesamtpopulation interessiert sind. Die Teilpopulation im vorherigen Beispiel bestand aus Männern:

Teilpopulation für eine bedingte Verteilung

Und wenn wir eine mit dieser Teilpopulation verknüpfte Wahrscheinlichkeit berechnen möchten, sagen wir, dass wir an einem bestimmten Charakter von Interesse interessiert sind. Der interessante Charakter im vorherigen Beispiel war Baseball:

Bedingte Verteilung in der Statistik

Um die Wahrscheinlichkeit zu ermitteln, dass das Merkmal von Interesse in der Subpopulation auftritt, dividieren wir einfach den Wert des Merkmals von Interesse (z. B. 13) durch die Gesamtwerte der Subpopulation (z. B. 48), um 13/48 = 0,2708 zu erhalten.

Bedingte Verteilungen und Unabhängigkeit

Wir können sagen, dass die Zufallsvariablen X und Y genau dann unabhängig sind, wenn die bedingte Verteilung von Y bei gegebenem X für alle möglichen Realisierungen von X gleich der unbedingten Verteilung von Y ist.

Können wir beispielsweise in der vorherigen Tabelle sehen, dass die Tests „bevorzugt Baseball“ und „männlich“ unabhängig voneinander sind?

Um diese Frage zu beantworten, berechnen wir die folgenden Wahrscheinlichkeiten:

  • P (bevorzugt Baseball)
  • P(bevorzugt Baseball | Mann) „bevorzugt Baseball, da es sich um Männer handelt

Die Wahrscheinlichkeit, dass eine bestimmte Person Baseball bevorzugt, beträgt:

  • P (bevorzugt Baseball) = 36/100 = 0,36 .

Die Wahrscheinlichkeit, dass eine bestimmte Person Baseball bevorzugt, vorausgesetzt, dass sie ein Mann ist, beträgt

  • P (bevorzugt Baseball | Mann) = 13/48 = .2708 .

Da P(bevorzugt Baseball) nicht gleich P(bevorzugt Baseball | männlich) ist, sind die Zufallsvariablen Sportpräferenz und Geschlecht nicht unabhängig.

Warum bedingte Verteilungen verwenden?

Bedingte Wahrscheinlichkeitsverteilungen sind nützlich, da wir oft Daten für zwei Variablen sammeln (wie Geschlecht und Sportpräferenzen), aber wir möchten Fragen zur Wahrscheinlichkeit beantworten, wenn wir den Wert einer der Variablen kennen .

Im vorherigen Beispiel haben wir das Szenario betrachtet, bei dem wir wussten, dass eine bestimmte Person männlich ist, und wir wollten lediglich wissen, wie wahrscheinlich es ist, dass diese Person Baseball bevorzugen würde.

Im wirklichen Leben gibt es viele Fälle, in denen wir den Wert einer Variablen kennen und mithilfe einer bedingten Verteilung die Wahrscheinlichkeit ermitteln können, mit der eine andere Variable einen bestimmten Wert annimmt.

Zusätzliche Ressourcen

Was ist eine Randverteilung?
Was ist eine gemeinsame Wahrscheinlichkeitsverteilung?
So ermitteln Sie die bedingte relative Häufigkeit in einer Tabelle mit doppeltem Eintrag

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert