Campionamento con sostituzione o senza sostituzione


Spesso nelle statistiche vogliamo raccogliere dati in modo da poter rispondere a determinate domande di ricerca.

Ad esempio, potremmo voler rispondere alle seguenti domande:

1. Qual è il reddito familiare medio a Cincinnati, Ohio?

2. Qual è il peso medio di una certa popolazione di tartarughe?

3. Quale percentuale di residenti in una determinata contea sostiene una determinata legge?

In ogni scenario, vogliamo rispondere a una domanda su una popolazione , che rappresenta tutti i possibili elementi individuali che vogliamo misurare.

Tuttavia, invece di raccogliere dati su ogni individuo di una popolazione, in genere raccogliamo dati solo su un campione della popolazione, che rappresenta una parte della popolazione.

Esistono due modi diversi per raccogliere i campioni: campionamento con reinserimento e campionamento senza reinserimento .

Questo tutorial spiega la differenza tra i due metodi insieme ad esempi di come utilizzarli nella pratica.

Campionamento con sostituzione

Supponiamo di avere i nomi di 5 studenti in un cappello:

  • Andy
  • Carlo
  • Tyler
  • Becca
  • Jessica

Supponiamo di voler prendere un campione di 2 studenti con sostituzione.

Nel primo disegno potremmo selezionare il nome di Tyler. Poi rimettevamo il suo nome nel cappello e disegnavamo di nuovo. Nel secondo disegno potremmo selezionare nuovamente il nome di Tyler. Quindi il nostro campione sarebbe: {Tyler, Tyler}

Questo è un esempio di come ottenere un campione con sostituzione perché sostituiamo il nome che scegliamo dopo ogni disegno.

Quando campioniamo con la sostituzione, gli elementi del campione sono indipendenti perché il risultato di un lancio di moneta non è influenzato dal lancio precedente.

Ad esempio, la probabilità di scegliere il nome Tyler è 1/5 alla prima estrazione e ancora 1/5 alla seconda estrazione. L’esito della prima estrazione non influisce sulla probabilità dell’esito della seconda estrazione.

Il campionamento con sostituzione viene utilizzato in molti scenari diversi in statistica e machine learning, tra cui:

In ciascuno di questi metodi viene utilizzato il campionamento con sostituzione perché ci consente di utilizzare lo stesso set di dati più volte per creare modelli, invece di raccogliere nuovi dati, il che può richiedere molto tempo e denaro.

Campionamento senza sostituzione

Ancora una volta, supponiamo di avere i nomi di 5 studenti in un cappello:

  • Andy
  • Carlo
  • Tyler
  • Becca
  • Jessica

Supponiamo di voler prendere un campione di 2 studenti senza sostituzione.

Nel primo disegno potremmo selezionare il nome di Tyler. Lasceremo quindi da parte il suo nome. Nel secondo disegno potremmo selezionare il nome Andy. Quindi il nostro campione sarebbe: {Tyler, Andy}

Questo è un esempio di come ottenere un campione senza sostituzione perché non sostituiamo il nome che scegliamo dopo ogni disegno.

Quando si campiona senza reinserimento, gli elementi del campione sono dipendenti perché il risultato di un lancio di moneta è influenzato dal lancio precedente.

Ad esempio, la probabilità di scegliere il nome Tyler è 1/5 nella prima estrazione e la probabilità di scegliere il nome Andy è 1/4 nella seconda estrazione. L’esito della prima estrazione influisce sulla probabilità dell’esito della seconda estrazione.

Il campionamento senza reinserimento è il metodo che utilizziamo quando vogliamo selezionare un campione casuale da una popolazione.

Ad esempio, se vogliamo stimare il reddito familiare medio a Cincinnati, Ohio, potrebbero esserci un totale di 500.000 famiglie diverse.

Quindi, potremmo voler raccogliere un campione casuale di 2.000 famiglie, ma non vogliamo che i dati di ciascuna famiglia appaiano due volte nel campione, quindi campioneremo senza sostituzione.

In altre parole, una volta scelta una determinata famiglia da includere nel campione, non vogliamo avere alcuna possibilità di selezionare nuovamente quella famiglia per l’inclusione.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *