Clusterbemonstering bij panda's: met voorbeelden
Onderzoekers nemen vaak steekproeven uit een populatie en gebruiken de gegevens uit de steekproef om conclusies te trekken over de populatie als geheel.
Een veelgebruikte bemonsteringsmethode is clusterbemonstering , waarbij een populatie in clusters wordt verdeeld en alle leden van bepaalde clusters worden gekozen om in de steekproef te worden opgenomen.
In deze zelfstudie wordt uitgelegd hoe u clusterbemonstering uitvoert op een panda’s DataFrame in Python.
Voorbeeld: clusterbemonstering in panda’s
Stel dat een bedrijf dat rondleidingen door de stad aanbiedt, een enquête wil houden onder zijn klanten. Uit de tien tours die ze per dag aanbieden, selecteren ze willekeurig vier tours en vragen ze elke klant om zijn ervaring te beoordelen op een schaal van 1 tot 10.
De volgende code laat zien hoe u een Panda DataFrame maakt om mee te werken:
import pandas as pd import numpy as np #make this example reproducible n.p. random . seeds (0) #createDataFrame df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20), 'experience': np. random . normal (loc=7, scale=1, size=200)}) #view first six rows of DataFrame df. head () tour experience 1 1 6.373546 2 1 7.183643 3 1 6.164371 4 1 8.595281 5 1 7.329508 6 1 6.179532
En de volgende code laat zien hoe u een steekproef van klanten kunt verkrijgen door willekeurig vier bezoeken te selecteren en elk lid van die bezoeken in de steekproef op te nemen:
#randomly choose 4 tour groups out of the 10 clusters = np. random . choice (np. arange (1,11), size=4, replace= False ) #define sample as all members who belong to one of the 4 tour groups cluster_sample = df[df[' tour ']. isin (clusters)] #view first six rows of sample cluster_sample. head () tour experience 40 3 5.951447 41 3 5.579982 42 3 5.293730 43 3 8.950775 44 3 6.490348 #find how many observations came from each tour group cluster_sample[' tour ']. value_counts () 10 20 6 20 5 20 3 20 Name: tour, dtype: int64
Uit het resultaat kunnen we zien dat:
- In de steekproef waren 20 klanten van reisgroep #10 opgenomen.
- In de steekproef waren 20 klanten van toeristengroep nr. 6 opgenomen.
- In de steekproef waren 20 klanten van toeristengroep #5 opgenomen.
- In de steekproef waren 20 klanten van toeristengroep nr. 3 opgenomen.
Deze steekproef bestaat dus uit in totaal 80 klanten uit 4 verschillende toeristische groepen.
Aanvullende bronnen
Inzicht in de verschillende soorten bemonsteringsmethoden
Gestratificeerde bemonstering bij panda’s
Systematische bemonstering van panda’s