R의 클러스터 샘플링: 예제 포함

에 의해 벤자민 앤더슨 7월 28, 2023 가이드 댓글 0개

연구자들은 종종 모집단에서 표본을 채취 하고 표본의 데이터를 사용하여 모집단 전체에 대한 결론을 도출합니다.

일반적으로 사용되는 샘플링 방법은 모집단을 클러스터 로 나누고 특정 클러스터의 모든 구성원을 선택하여 샘플에 포함시키는 클러스터 샘플링입니다.

이 튜토리얼에서는 R에서 클러스터 샘플링을 수행하는 방법을 설명합니다.

예: R의 클러스터 샘플링

도시 투어를 제공하는 회사가 고객을 대상으로 설문조사를 원한다고 가정해 보겠습니다. 그들은 하루에 제공하는 10개의 투어 중에서 무작위로 4개의 투어를 선택하고 각 고객에게 자신의 경험을 1에서 10까지 평가하도록 요청합니다.

다음 코드는 R에서 작업할 가짜 데이터 프레임을 만드는 방법을 보여줍니다.

 #make this example reproducible
set.seed(1)

#create data frame
df <- data.frame(tour = rep(1:10, each=20),
                 experience = rnorm(200, mean=7, sd=1))

#view first six rows of data frame
head(df)

  tour experience
1 1 6.373546
2 1 7.183643
3 1 6.164371
4 1 8.595281
5 1 7.329508
6 1 6.179532

다음 코드는 4번의 방문을 무작위로 선택하고 해당 방문의 각 구성원을 샘플에 포함시켜 고객 샘플을 얻는 방법을 보여줍니다.

 #randomly choose 4 tour groups out of the 10
clusters <- sample( unique (df$tour), size=4, replace= F )

#define sample as all members who belong to one of the 4 tour groups
cluster_sample <- df[df$tour %in% clusters, ]

#view how many customers came from each tour
table(cluster_sample$tour)

 2 7 8 10 
20 20 20 20

결과에서 우리는 다음을 볼 수 있습니다:

관광그룹 #2의 고객 20명이 표본에 포함되었습니다.
투어 그룹 #7의 고객 20명이 샘플에 포함되었습니다.
투어 그룹 #8의 고객 20명이 샘플에 포함되었습니다.
투어 그룹 #10의 고객 20명이 샘플에 포함되었습니다.

따라서 이 표본은 4개의 서로 다른 관광 그룹의 총 80명의 고객으로 구성됩니다.

관련 항목: R에서 %in% 연산자를 사용하는 방법

추가 리소스

다양한 유형의 샘플링 방법 이해
R의 계층화된 샘플링
R의 체계적인 샘플링

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

예: R의 클러스터 샘플링

추가 리소스

저자 소개

벤자민 앤더슨

의견을 추가하다