O que é uma distribuição condicional nas estatísticas?


Se X e Y são duas variáveis aleatórias distribuídas conjuntamente, então a distribuição condicional de Y dado X é a distribuição de probabilidade de Y quando se sabe que X tem um determinado valor.

Por exemplo, a tabela bidirecional a seguir mostra os resultados de uma pesquisa que perguntou a 100 pessoas qual esporte elas preferiam: beisebol, basquete ou futebol americano.

Se quisermos saber a probabilidade de uma pessoa preferir um determinado esporte por ser homem, então este é um exemplo de distribuição condicional.

O valor de uma variável aleatória é conhecido (a pessoa é um homem), mas o valor da outra variável aleatória é desconhecido (não sabemos o seu desporto favorito).

Para encontrar a distribuição condicional das preferências esportivas entre os homens, simplesmente observaríamos os valores da linha masculina na tabela:

Exemplo de distribuição condicional

A distribuição condicional seria calculada da seguinte forma:

  • Homens que preferem beisebol: 13/48 = 0,2708
  • Homens que preferem basquete: 15/48 = 0,3125
  • Homens que preferem futebol: 20/48 = 0,4167

Observe que a soma das probabilidades totaliza 1: 13/48 + 15/48 + 20/48 = 48/48 = 1.

Podemos utilizar esta distribuição condicional para responder a questões como: Dado que um indivíduo é do sexo masculino, qual é a probabilidade de o basebol ser o seu desporto favorito?

A partir da distribuição condicional que calculamos anteriormente, podemos ver que a probabilidade é 0,2708 .

Em termos técnicos, quando calculamos uma distribuição condicional, dizemos que estamos interessados numa subpopulação específica da população total. A subpopulação do exemplo anterior era composta por homens:

Subpopulação para uma distribuição condicional

E quando queremos calcular uma probabilidade ligada a esta subpopulação, dizemos que estamos interessados num determinado personagem de interesse . O personagem interessante no exemplo anterior foi o beisebol:

Distribuição condicional em estatísticas

Para encontrar a probabilidade de a característica de interesse aparecer na subpopulação, simplesmente dividimos o valor da característica de interesse (por exemplo, 13) pelos valores totais da subpopulação (por exemplo, 48) para obter 13/48 = 0,2708 .

Distribuições condicionais e independência

Podemos dizer que as variáveis aleatórias X e Y são independentes se e somente se a distribuição condicional de Y dado X for, para todas as realizações possíveis de X , igual à distribuição incondicional de Y.

Por exemplo, na tabela anterior, podemos ver que os testes “prefere beisebol” e “masculino” são independentes?

Para responder a esta pergunta, vamos calcular as seguintes probabilidades:

  • P (prefere beisebol)
  • P(prefere beisebol | homem) “prefere beisebol, visto que são homens

A probabilidade de um determinado indivíduo preferir o beisebol é:

  • P (prefere beisebol) = 36/100 = 0,36 .

A probabilidade de um determinado indivíduo preferir o beisebol, dado que é homem, é

  • P (prefere beisebol | homem) = 13/48 = 0,2708 .

Como P(prefere beisebol) não é igual a P(prefere beisebol | masculino), as variáveis aleatórias de preferência esportiva e gênero não são independentes.

Por que usar distribuições condicionais?

As distribuições de probabilidade condicional são úteis porque frequentemente coletamos dados para duas variáveis (como gênero e preferências esportivas), mas queremos responder a questões sobre probabilidade quando sabemos o valor de uma das variáveis.

No exemplo anterior, consideramos o cenário em que sabíamos que um determinado indivíduo era do sexo masculino e queríamos simplesmente saber a probabilidade de esse indivíduo preferir o beisebol.

Existem muitos casos na vida real em que sabemos o valor de uma variável e podemos usar uma distribuição condicional para encontrar a probabilidade de outra variável assumir um determinado valor.

Recursos adicionais

O que é uma distribuição marginal?
O que é uma distribuição de probabilidade conjunta?
Como encontrar a frequência relativa condicional em uma tabela de dupla entrada

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *