O que é uma distribuição condicional nas estatísticas?
Se X e Y são duas variáveis aleatórias distribuídas conjuntamente, então a distribuição condicional de Y dado X é a distribuição de probabilidade de Y quando se sabe que X tem um determinado valor.
Por exemplo, a tabela bidirecional a seguir mostra os resultados de uma pesquisa que perguntou a 100 pessoas qual esporte elas preferiam: beisebol, basquete ou futebol americano.
Se quisermos saber a probabilidade de uma pessoa preferir um determinado esporte por ser homem, então este é um exemplo de distribuição condicional.
O valor de uma variável aleatória é conhecido (a pessoa é um homem), mas o valor da outra variável aleatória é desconhecido (não sabemos o seu desporto favorito).
Para encontrar a distribuição condicional das preferências esportivas entre os homens, simplesmente observaríamos os valores da linha masculina na tabela:
A distribuição condicional seria calculada da seguinte forma:
- Homens que preferem beisebol: 13/48 = 0,2708
- Homens que preferem basquete: 15/48 = 0,3125
- Homens que preferem futebol: 20/48 = 0,4167
Observe que a soma das probabilidades totaliza 1: 13/48 + 15/48 + 20/48 = 48/48 = 1.
Podemos utilizar esta distribuição condicional para responder a questões como: Dado que um indivíduo é do sexo masculino, qual é a probabilidade de o basebol ser o seu desporto favorito?
A partir da distribuição condicional que calculamos anteriormente, podemos ver que a probabilidade é 0,2708 .
Em termos técnicos, quando calculamos uma distribuição condicional, dizemos que estamos interessados numa subpopulação específica da população total. A subpopulação do exemplo anterior era composta por homens:
E quando queremos calcular uma probabilidade ligada a esta subpopulação, dizemos que estamos interessados num determinado personagem de interesse . O personagem interessante no exemplo anterior foi o beisebol:
Para encontrar a probabilidade de a característica de interesse aparecer na subpopulação, simplesmente dividimos o valor da característica de interesse (por exemplo, 13) pelos valores totais da subpopulação (por exemplo, 48) para obter 13/48 = 0,2708 .
Distribuições condicionais e independência
Podemos dizer que as variáveis aleatórias X e Y são independentes se e somente se a distribuição condicional de Y dado X for, para todas as realizações possíveis de X , igual à distribuição incondicional de Y.
Por exemplo, na tabela anterior, podemos ver que os testes “prefere beisebol” e “masculino” são independentes?
Para responder a esta pergunta, vamos calcular as seguintes probabilidades:
- P (prefere beisebol)
- P(prefere beisebol | homem) “prefere beisebol, visto que são homens
A probabilidade de um determinado indivíduo preferir o beisebol é:
- P (prefere beisebol) = 36/100 = 0,36 .
A probabilidade de um determinado indivíduo preferir o beisebol, dado que é homem, é
- P (prefere beisebol | homem) = 13/48 = 0,2708 .
Como P(prefere beisebol) não é igual a P(prefere beisebol | masculino), as variáveis aleatórias de preferência esportiva e gênero não são independentes.
Por que usar distribuições condicionais?
As distribuições de probabilidade condicional são úteis porque frequentemente coletamos dados para duas variáveis (como gênero e preferências esportivas), mas queremos responder a questões sobre probabilidade quando sabemos o valor de uma das variáveis.
No exemplo anterior, consideramos o cenário em que sabíamos que um determinado indivíduo era do sexo masculino e queríamos simplesmente saber a probabilidade de esse indivíduo preferir o beisebol.
Existem muitos casos na vida real em que sabemos o valor de uma variável e podemos usar uma distribuição condicional para encontrar a probabilidade de outra variável assumir um determinado valor.
Recursos adicionais
O que é uma distribuição marginal?
O que é uma distribuição de probabilidade conjunta?
Como encontrar a frequência relativa condicional em uma tabela de dupla entrada