Amostragem por cluster no pandas: com exemplos


Os pesquisadores geralmente coletam amostras de uma população e usam os dados da amostra para tirar conclusões sobre a população como um todo.

Um método de amostragem comumente usado é a amostragem por conglomerados , em que uma população é dividida em conglomerados e todos os membros de determinados conglomerados são escolhidos para inclusão na amostra.

Este tutorial explica como realizar amostragem de cluster em um DataFrame do pandas em Python.

Exemplo: Amostragem Cluster em Pandas

Digamos que uma empresa que oferece passeios pela cidade queira fazer uma pesquisa com seus clientes. Dos dez passeios que oferecem por dia, eles selecionam aleatoriamente quatro passeios e pedem a cada cliente que avalie sua experiência em uma escala de 1 a 10.

O código a seguir mostra como criar um DataFrame do pandas para trabalhar:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (0)

#createDataFrame
df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20),
                   'experience': np. random . normal (loc=7, scale=1, size=200)})

#view first six rows of DataFrame
df. head ()

  tour experience
1 1 6.373546
2 1 7.183643
3 1 6.164371
4 1 8.595281
5 1 7.329508
6 1 6.179532

E o código a seguir mostra como obter uma amostra de clientes selecionando aleatoriamente quatro visitas e incluindo cada membro dessas visitas na amostra:

 #randomly choose 4 tour groups out of the 10
clusters = np. random . choice (np. arange (1,11), size=4, replace= False )

#define sample as all members who belong to one of the 4 tour groups
cluster_sample = df[df[' tour ']. isin (clusters)]

#view first six rows of sample
cluster_sample. head ()

tour experience
40 3 5.951447
41 3 5.579982
42 3 5.293730
43 3 8.950775
44 3 6.490348 

#find how many observations came from each tour group
cluster_sample[' tour ']. value_counts ()

10 20
6 20
5 20
3 20
Name: tour, dtype: int64

Pelo resultado podemos ver que:

  • 20 clientes do grupo turístico nº 10 foram incluídos na amostra.
  • Foram incluídos na amostra 20 clientes do grupo turístico #6.
  • Foram incluídos na amostra 20 clientes do grupo turístico #5.
  • Foram incluídos na amostra 20 clientes do grupo turístico #3.

Assim, esta amostra é composta por 80 clientes no total de 4 grupos turísticos diferentes.

Recursos adicionais

Compreender os diferentes tipos de métodos de amostragem
Amostragem estratificada em pandas
Amostragem sistemática de pandas

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *