Clusterbemonstering bij panda's: met voorbeelden


Onderzoekers nemen vaak steekproeven uit een populatie en gebruiken de gegevens uit de steekproef om conclusies te trekken over de populatie als geheel.

Een veelgebruikte bemonsteringsmethode is clusterbemonstering , waarbij een populatie in clusters wordt verdeeld en alle leden van bepaalde clusters worden gekozen om in de steekproef te worden opgenomen.

In deze zelfstudie wordt uitgelegd hoe u clusterbemonstering uitvoert op een panda’s DataFrame in Python.

Voorbeeld: clusterbemonstering in panda’s

Stel dat een bedrijf dat rondleidingen door de stad aanbiedt, een enquête wil houden onder zijn klanten. Uit de tien tours die ze per dag aanbieden, selecteren ze willekeurig vier tours en vragen ze elke klant om zijn ervaring te beoordelen op een schaal van 1 tot 10.

De volgende code laat zien hoe u een Panda DataFrame maakt om mee te werken:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (0)

#createDataFrame
df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20),
                   'experience': np. random . normal (loc=7, scale=1, size=200)})

#view first six rows of DataFrame
df. head ()

  tour experience
1 1 6.373546
2 1 7.183643
3 1 6.164371
4 1 8.595281
5 1 7.329508
6 1 6.179532

En de volgende code laat zien hoe u een steekproef van klanten kunt verkrijgen door willekeurig vier bezoeken te selecteren en elk lid van die bezoeken in de steekproef op te nemen:

 #randomly choose 4 tour groups out of the 10
clusters = np. random . choice (np. arange (1,11), size=4, replace= False )

#define sample as all members who belong to one of the 4 tour groups
cluster_sample = df[df[' tour ']. isin (clusters)]

#view first six rows of sample
cluster_sample. head ()

tour experience
40 3 5.951447
41 3 5.579982
42 3 5.293730
43 3 8.950775
44 3 6.490348 

#find how many observations came from each tour group
cluster_sample[' tour ']. value_counts ()

10 20
6 20
5 20
3 20
Name: tour, dtype: int64

Uit het resultaat kunnen we zien dat:

  • In de steekproef waren 20 klanten van reisgroep #10 opgenomen.
  • In de steekproef waren 20 klanten van toeristengroep nr. 6 opgenomen.
  • In de steekproef waren 20 klanten van toeristengroep #5 opgenomen.
  • In de steekproef waren 20 klanten van toeristengroep nr. 3 opgenomen.

Deze steekproef bestaat dus uit in totaal 80 klanten uit 4 verschillende toeristische groepen.

Aanvullende bronnen

Inzicht in de verschillende soorten bemonsteringsmethoden
Gestratificeerde bemonstering bij panda’s
Systematische bemonstering van panda’s

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert