Cluster-sampling bei pandas: mit beispielen


Forscher entnehmen häufig Stichproben aus einer Population und nutzen die Daten aus der Stichprobe, um Rückschlüsse auf die Population als Ganzes zu ziehen.

Eine häufig verwendete Stichprobenmethode ist die Cluster-Stichprobe , bei der eine Population in Cluster unterteilt wird und alle Mitglieder bestimmter Cluster für die Aufnahme in die Stichprobe ausgewählt werden.

In diesem Tutorial wird erläutert, wie Sie Cluster-Sampling für einen Pandas-DataFrame in Python durchführen.

Beispiel: Cluster-Sampling in Pandas

Nehmen wir an, ein Unternehmen, das Stadtrundfahrten anbietet, möchte seine Kunden befragen. Aus zehn Touren, die sie pro Tag anbieten, wählen sie zufällig vier Touren aus und bitten jeden Kunden, sein Erlebnis auf einer Skala von 1 bis 10 zu bewerten.

Der folgende Code zeigt, wie man einen Pandas-DataFrame für die Arbeit erstellt:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (0)

#createDataFrame
df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20),
                   'experience': np. random . normal (loc=7, scale=1, size=200)})

#view first six rows of DataFrame
df. head ()

  tour experience
1 1 6.373546
2 1 7.183643
3 1 6.164371
4 1 8.595281
5 1 7.329508
6 1 6.179532

Und der folgende Code zeigt, wie man eine Stichprobe von Kunden erhält, indem man vier Besuche zufällig auswählt und jedes Mitglied dieser Besuche in die Stichprobe einbezieht:

 #randomly choose 4 tour groups out of the 10
clusters = np. random . choice (np. arange (1,11), size=4, replace= False )

#define sample as all members who belong to one of the 4 tour groups
cluster_sample = df[df[' tour ']. isin (clusters)]

#view first six rows of sample
cluster_sample. head ()

tour experience
40 3 5.951447
41 3 5.579982
42 3 5.293730
43 3 8.950775
44 3 6.490348 

#find how many observations came from each tour group
cluster_sample[' tour ']. value_counts ()

10 20
6 20
5 20
3 20
Name: tour, dtype: int64

Aus dem Ergebnis können wir Folgendes erkennen:

  • In die Stichprobe wurden 20 Kunden der Reisegruppe Nr. 10 einbezogen.
  • In die Stichprobe wurden 20 Kunden der Touristengruppe Nr. 6 einbezogen.
  • In die Stichprobe wurden 20 Kunden der Touristengruppe Nr. 5 einbezogen.
  • In die Stichprobe wurden 20 Kunden der Touristengruppe Nr. 3 einbezogen.

Somit besteht diese Stichprobe aus insgesamt 80 Kunden aus 4 verschiedenen Touristengruppen.

Zusätzliche Ressourcen

Verständnis der verschiedenen Arten von Probenahmemethoden
Geschichtete Probenahme bei Pandas
Systematische Probenahme von Pandas

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert