Amostragem por cluster no pandas: com exemplos
Os pesquisadores geralmente coletam amostras de uma população e usam os dados da amostra para tirar conclusões sobre a população como um todo.
Um método de amostragem comumente usado é a amostragem por conglomerados , em que uma população é dividida em conglomerados e todos os membros de determinados conglomerados são escolhidos para inclusão na amostra.
Este tutorial explica como realizar amostragem de cluster em um DataFrame do pandas em Python.
Exemplo: Amostragem Cluster em Pandas
Digamos que uma empresa que oferece passeios pela cidade queira fazer uma pesquisa com seus clientes. Dos dez passeios que oferecem por dia, eles selecionam aleatoriamente quatro passeios e pedem a cada cliente que avalie sua experiência em uma escala de 1 a 10.
O código a seguir mostra como criar um DataFrame do pandas para trabalhar:
import pandas as pd import numpy as np #make this example reproducible n.p. random . seeds (0) #createDataFrame df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20), 'experience': np. random . normal (loc=7, scale=1, size=200)}) #view first six rows of DataFrame df. head () tour experience 1 1 6.373546 2 1 7.183643 3 1 6.164371 4 1 8.595281 5 1 7.329508 6 1 6.179532
E o código a seguir mostra como obter uma amostra de clientes selecionando aleatoriamente quatro visitas e incluindo cada membro dessas visitas na amostra:
#randomly choose 4 tour groups out of the 10 clusters = np. random . choice (np. arange (1,11), size=4, replace= False ) #define sample as all members who belong to one of the 4 tour groups cluster_sample = df[df[' tour ']. isin (clusters)] #view first six rows of sample cluster_sample. head () tour experience 40 3 5.951447 41 3 5.579982 42 3 5.293730 43 3 8.950775 44 3 6.490348 #find how many observations came from each tour group cluster_sample[' tour ']. value_counts () 10 20 6 20 5 20 3 20 Name: tour, dtype: int64
Pelo resultado podemos ver que:
- 20 clientes do grupo turístico nº 10 foram incluídos na amostra.
- Foram incluídos na amostra 20 clientes do grupo turístico #6.
- Foram incluídos na amostra 20 clientes do grupo turístico #5.
- Foram incluídos na amostra 20 clientes do grupo turístico #3.
Assim, esta amostra é composta por 80 clientes no total de 4 grupos turísticos diferentes.
Recursos adicionais
Compreender os diferentes tipos de métodos de amostragem
Amostragem estratificada em pandas
Amostragem sistemática de pandas