Amostragem com reposição ou sem reposição


Muitas vezes, em estatística, queremos recolher dados para que possamos responder a certas questões de investigação.

Por exemplo, podemos querer responder às seguintes perguntas:

1. Qual é a renda familiar média em Cincinnati, Ohio?

2. Qual é o peso médio de uma determinada população de tartarugas?

3. Qual a percentagem de residentes num determinado concelho que apoia uma determinada lei?

Em cada cenário, queremos responder a uma pergunta sobre uma população , que representa todos os possíveis elementos individuais que queremos medir.

No entanto, em vez de recolher dados sobre cada indivíduo de uma população, normalmente apenas recolhemos dados sobre uma amostra da população, que representa uma parte da população.

Existem duas formas diferentes de coletar amostras: amostragem com reposição e amostragem sem reposição .

Este tutorial explica a diferença entre os dois métodos, juntamente com exemplos de como usar cada um na prática.

Amostragem com substituição

Suponha que temos os nomes de 5 alunos em um chapéu:

  • Andy
  • Carlos
  • Tyler
  • Beca
  • Jéssica

Suponha que queiramos obter uma amostra de 2 alunos com reposição.

No primeiro desenho, podemos selecionar o nome de Tyler. Colocaríamos então o nome dele de volta no chapéu e empataríamos novamente. No segundo desenho, podemos selecionar novamente o nome de Tyler. Portanto, nossa amostra seria: {Tyler, Tyler}

Este é um exemplo de obtenção de amostra com reposição porque substituímos o nome que escolhemos após cada sorteio.

Quando amostramos com reposição, os elementos da amostra são independentes porque o resultado de um lançamento de moeda não é afetado pelo lançamento de moeda anterior.

Por exemplo, a probabilidade de escolher o nome Tyler é de 1/5 no primeiro sorteio e novamente de 1/5 no segundo sorteio. O resultado do primeiro sorteio não afeta a probabilidade do resultado do segundo sorteio.

A amostragem com substituição é usada em muitos cenários diferentes em estatística e aprendizado de máquina, incluindo:

Em cada um desses métodos, a amostragem com substituição é utilizada porque nos permite utilizar o mesmo conjunto de dados múltiplas vezes para construir modelos, em vez de coletar novos dados, o que pode ser demorado e caro.

Amostragem sem reposição

Novamente, suponha que temos os nomes de 5 alunos em um chapéu:

  • Andy
  • Carlos
  • Tyler
  • Beca
  • Jéssica

Suponha que queiramos obter uma amostra de 2 alunos sem reposição.

No primeiro desenho, podemos selecionar o nome de Tyler. Deixaríamos então o nome dele de lado. No segundo desenho pudemos selecionar o nome Andy. Portanto, nossa amostra seria: {Tyler, Andy}

Este é um exemplo de como obter uma amostra sem reposição porque não substituímos o nome que escolhemos após cada sorteio.

Quando amostramos sem reposição, os elementos da amostra são dependentes porque o resultado de um lançamento de moeda é afetado pelo lançamento de moeda anterior.

Por exemplo, a probabilidade de escolher o nome Tyler é de 1/5 no primeiro sorteio e a probabilidade de escolher o nome Andy é de 1/4 no segundo sorteio. O resultado do primeiro sorteio afeta a probabilidade do resultado do segundo sorteio.

A amostragem sem reposição é o método que utilizamos quando queremos selecionar uma amostra aleatória de uma população.

Por exemplo, se quisermos estimar o rendimento familiar médio em Cincinnati, Ohio, poderia haver um total de 500.000 agregados familiares diferentes.

Assim, podemos querer recolher uma amostra aleatória de 2.000 agregados familiares, mas não queremos que os dados de nenhum agregado familiar apareçam duas vezes na amostra, por isso faríamos uma amostragem sem reposição.

Por outras palavras, uma vez escolhido um determinado agregado familiar para incluir na amostra, não queremos ter qualquer possibilidade de seleccionar novamente esse agregado familiar para inclusão.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *