Qu’est-ce qu’une distribution conditionnelle en statistiques ?
Si X et Y sont deux variables aléatoires distribuées conjointement, alors la distribution conditionnelle de Y étant donné X est la distribution de probabilité de Y lorsque X est connu pour être une certaine valeur.
Par exemple, le tableau à double entrée suivant montre les résultats d’une enquête qui a demandé à 100 personnes quel sport elles préféraient : le baseball, le basket-ball ou le football.
Si nous voulons connaître la probabilité qu’une personne préfère un certain sport étant donné qu’elle est un homme, alors ceci est un exemple de distribution conditionnelle.
La valeur d’une variable aléatoire est connue (la personne est un homme), mais la valeur de l’autre variable aléatoire est inconnue (nous ne connaissons pas son sport préféré).
Pour trouver la répartition conditionnelle des préférences sportives parmi les hommes, nous examinerions simplement les valeurs de la ligne pour les hommes dans le tableau :
La distribution conditionnelle serait calculée comme suit :
- Hommes qui préfèrent le baseball : 13/48 = 0,2708
- Hommes qui préfèrent le basket-ball : 15/48 = 0,3125
- Hommes qui préfèrent le football : 20/48 = 0,4167
Notez que la somme des probabilités totalise 1 : 13/48 + 15/48 + 20/48 = 48/48 = 1.
Nous pouvons utiliser cette distribution conditionnelle pour répondre à des questions telles que : étant donné qu’un individu est un homme, quelle est la probabilité que le baseball soit son sport préféré ?
D’après la distribution conditionnelle que nous avons calculée plus tôt, nous pouvons voir que la probabilité est de 0,2708 .
En termes techniques, lorsque nous calculons une distribution conditionnelle, nous disons que nous nous intéressons à une sous-population particulière de la population globale. La sous-population de l’exemple précédent était composée d’hommes :
Et quand on veut calculer une probabilité liée à cette sous-population, on dit qu’on s’intéresse à un personnage d’intérêt particulier. Le personnage intéressant dans l’exemple précédent était le baseball :
Pour trouver la probabilité que le caractère d’intérêt apparaisse dans la sous-population, nous divisons simplement la valeur du caractère d’intérêt (par exemple 13) par les valeurs totales de la sous-population (par exemple 48) pour obtenir 13/48 = 0,2708 .
Distributions conditionnelles et indépendance
On peut dire que les variables aléatoires X et Y sont indépendantes si et seulement si la distribution conditionnelle de Y étant donné X est, pour toutes les réalisations possibles de X , égale à la distribution inconditionnelle de Y .
Par exemple, dans le tableau précédent, peut-on voir que les épreuves « préfère le baseball » et « masculin » sont indépendantes ?
Pour répondre à cette question, calculons les probabilités suivantes :
- P(préfère le baseball)
- P(préfère le baseball | homme) « préfère le baseball, étant donné qu’ils sont des hommes
La probabilité qu’un individu donné préfère le baseball est :
- P (préfère le baseball) = 36/100 = 0,36 .
La probabilité qu’un individu donné préfère le baseball, étant donné qu’il s’agit d’un homme, est
- P (préfère le baseball | homme) = 13/48 = .2708 .
Puisque P(préfère le baseball) n’est pas égal à P(préfère le baseball | homme), les variables aléatoires de préférence sportive et de sexe ne sont pas indépendantes.
Pourquoi utiliser des distributions conditionnelles ?
Les distributions de probabilité conditionnelles sont utiles car nous collectons souvent des données pour deux variables (comme le sexe et les préférences sportives), mais nous souhaitons répondre aux questions sur la probabilité lorsque nous connaissons la valeur de l’une des variables.
Dans l’exemple précédent, nous avons considéré le scénario où nous savions qu’un individu donné était un homme et nous voulions simplement connaître la probabilité que cet individu préfère le baseball.
Il existe de nombreux cas dans la vie réelle où nous connaissons la valeur d’une variable et pouvons utiliser une distribution conditionnelle pour trouver la probabilité qu’une autre variable prenne une certaine valeur.
Ressources additionnelles
Qu’est-ce qu’une distribution marginale ?
Qu’est-ce qu’une distribution de probabilité conjointe ?
Comment trouver une fréquence relative conditionnelle dans un tableau à double entrée