Cluster-sampling bei pandas: mit beispielen
Forscher entnehmen häufig Stichproben aus einer Population und nutzen die Daten aus der Stichprobe, um Rückschlüsse auf die Population als Ganzes zu ziehen.
Eine häufig verwendete Stichprobenmethode ist die Cluster-Stichprobe , bei der eine Population in Cluster unterteilt wird und alle Mitglieder bestimmter Cluster für die Aufnahme in die Stichprobe ausgewählt werden.
In diesem Tutorial wird erläutert, wie Sie Cluster-Sampling für einen Pandas-DataFrame in Python durchführen.
Beispiel: Cluster-Sampling in Pandas
Nehmen wir an, ein Unternehmen, das Stadtrundfahrten anbietet, möchte seine Kunden befragen. Aus zehn Touren, die sie pro Tag anbieten, wählen sie zufällig vier Touren aus und bitten jeden Kunden, sein Erlebnis auf einer Skala von 1 bis 10 zu bewerten.
Der folgende Code zeigt, wie man einen Pandas-DataFrame für die Arbeit erstellt:
import pandas as pd import numpy as np #make this example reproducible n.p. random . seeds (0) #createDataFrame df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20), 'experience': np. random . normal (loc=7, scale=1, size=200)}) #view first six rows of DataFrame df. head () tour experience 1 1 6.373546 2 1 7.183643 3 1 6.164371 4 1 8.595281 5 1 7.329508 6 1 6.179532
Und der folgende Code zeigt, wie man eine Stichprobe von Kunden erhält, indem man vier Besuche zufällig auswählt und jedes Mitglied dieser Besuche in die Stichprobe einbezieht:
#randomly choose 4 tour groups out of the 10 clusters = np. random . choice (np. arange (1,11), size=4, replace= False ) #define sample as all members who belong to one of the 4 tour groups cluster_sample = df[df[' tour ']. isin (clusters)] #view first six rows of sample cluster_sample. head () tour experience 40 3 5.951447 41 3 5.579982 42 3 5.293730 43 3 8.950775 44 3 6.490348 #find how many observations came from each tour group cluster_sample[' tour ']. value_counts () 10 20 6 20 5 20 3 20 Name: tour, dtype: int64
Aus dem Ergebnis können wir Folgendes erkennen:
- In die Stichprobe wurden 20 Kunden der Reisegruppe Nr. 10 einbezogen.
- In die Stichprobe wurden 20 Kunden der Touristengruppe Nr. 6 einbezogen.
- In die Stichprobe wurden 20 Kunden der Touristengruppe Nr. 5 einbezogen.
- In die Stichprobe wurden 20 Kunden der Touristengruppe Nr. 3 einbezogen.
Somit besteht diese Stichprobe aus insgesamt 80 Kunden aus 4 verschiedenen Touristengruppen.
Zusätzliche Ressourcen
Verständnis der verschiedenen Arten von Probenahmemethoden
Geschichtete Probenahme bei Pandas
Systematische Probenahme von Pandas