Che cos'è una distribuzione condizionale nelle statistiche?
Se X e Y sono due variabili casuali distribuite congiuntamente, allora la distribuzione condizionale di Y dato X è la distribuzione di probabilità di Y quando si sa che X ha un certo valore.
Ad esempio, la seguente tabella a due vie mostra i risultati di un sondaggio in cui è stato chiesto a 100 persone quale sport preferissero: baseball, basket o football.
Se vogliamo conoscere la probabilità che una persona preferisca un certo sport dato che è un uomo, allora questo è un esempio di distribuzione condizionale.
Il valore di una variabile casuale è noto (la persona è un uomo), ma il valore dell’altra variabile casuale è sconosciuto (non conosciamo il suo sport preferito).
Per trovare la distribuzione condizionale delle preferenze sportive tra gli uomini, dovremmo semplicemente guardare i valori della linea per gli uomini nella tabella:
La distribuzione condizionale verrebbe calcolata come segue:
- Uomini che preferiscono il baseball: 13/48 = 0,2708
- Uomini che preferiscono il basket: 15/48 = 0,3125
- Uomini che preferiscono il calcio: 20/48 = 0,4167
Nota che la somma delle probabilità ammonta a 1: 13/48 + 15/48 + 20/48 = 48/48 = 1.
Possiamo usare questa distribuzione condizionale per rispondere a domande come: dato che un individuo è maschio, qual è la probabilità che il baseball sia il suo sport preferito?
Dalla distribuzione condizionale calcolata in precedenza, possiamo vedere che la probabilità è 0,2708 .
In termini tecnici, quando calcoliamo una distribuzione condizionale, diciamo che siamo interessati a una particolare sottopopolazione della popolazione complessiva. La sottopopolazione dell’esempio precedente era composta da uomini:
E quando vogliamo calcolare una probabilità legata a questa sottopopolazione, diciamo che ci interessa un particolare carattere di interesse . Il personaggio interessante nell’esempio precedente era il baseball:
Per trovare la probabilità che il tratto di interesse compaia nella sottopopolazione, dividiamo semplicemente il valore del tratto di interesse (es. 13) per i valori totali della sottopopolazione (es. 48) per ottenere 13/48 = 0,2708 .
Distribuzioni condizionate e indipendenza
Possiamo dire che le variabili casuali X e Y sono indipendenti se e solo se la distribuzione condizionata di Y dato X è, per tutte le possibili realizzazioni di X , uguale alla distribuzione incondizionata di Y.
Ad esempio, nella tabella precedente, possiamo vedere che i test “preferisce il baseball” e “maschio” sono indipendenti?
Per rispondere a questa domanda, calcoliamo le seguenti probabilità:
- P(preferisce il baseball)
- P(preferisce il baseball | uomo) “preferisce il baseball, dato che sono uomini
La probabilità che un dato individuo preferisca il baseball è:
- P (preferisce il baseball) = 36/100 = 0,36 .
La probabilità che un dato individuo preferisca il baseball, dato che è un uomo, è
- P (preferisce il baseball | uomo) = 13/48 = .2708 .
Poiché P(preferisce il baseball) non è uguale a P(preferisce il baseball | maschio), le variabili casuali della preferenza sportiva e del genere non sono indipendenti.
Perché utilizzare le distribuzioni condizionali?
Le distribuzioni di probabilità condizionale sono utili perché spesso raccogliamo dati per due variabili (come il genere e le preferenze sportive), ma vogliamo rispondere a domande sulla probabilità quando conosciamo il valore di una delle variabili.
Nell’esempio precedente, abbiamo considerato lo scenario in cui sapevamo che un dato individuo era maschio e volevamo semplicemente conoscere la probabilità che questo individuo preferisse il baseball.
Ci sono molti casi nella vita reale in cui conosciamo il valore di una variabile e possiamo utilizzare una distribuzione condizionale per trovare la probabilità che un’altra variabile assuma un determinato valore.
Risorse addizionali
Cos’è una distribuzione marginale?
Cos’è una distribuzione di probabilità congiunta?
Come trovare la frequenza relativa condizionale in una tabella a doppia entrata