대표 표본은 무엇이며 왜 중요한가요?

에 의해 벤자민 앤더슨 7월 29, 2023 가이드 댓글 0개

통계에서는 특정 인구의 특성을 연구하는 데 관심이 있는 경우가 많습니다. 예를 들어, 우리는 다음과 같은 연구에 관심이 있을 수 있습니다.

특정 도시의 기계공학자의 전반적인 직업 만족도.
특정 카운티에 거주하는 개인의 정치적 선호.
특정 국가의 개인 연령 분포.
특정 학교 학생들의 영화적 선호도.

이러한 각 예에서 우리는 특정 모집단을 더 잘 이해하고 싶습니다.

인구: 연구하려는 개인의 전체 그룹입니다.

불행하게도 모집단의 각 개인에 대한 데이터를 수집하는 데는 비용과 시간이 많이 소요될 수 있습니다. 이것이 바로 연구자들이 일반적으로 모집단 표본 에 대한 데이터를 수집한 다음 표본의 결과를 전체 모집단에 일반화하는 이유입니다.

표본: 모집단의 하위 집합입니다.

예를 들어, 총 학생 수가 1,000명인 특정 학교에 다니는 학생들의 영화 선호도를 이해하고 싶다고 가정해 보겠습니다. 각 학생을 개별적으로 조사하는 것은 너무 오래 걸리기 때문에 대신 100명의 학생을 무작위로 표본 추출하여 선호도에 대해 물어볼 수 있었습니다.

1,000명의 학생은 모집단을 대표하고, 무작위로 선택된 100명의 학생은 표본을 대표합니다. 100명의 학생 표본에 대한 데이터를 수집한 후에는 이러한 결과를 전체 1,000명의 학생 모집단으로 일반화할 수 있습니다. 단, 표본이 모집단을 대표하는 경우에만 가능합니다.

대표표본 : 개인의 특성이 전체 모집단의 특성과 밀접하게 일치하는 표본.

이상적으로는 표본이 모집단의 “소형 버전”과 유사해지기를 원합니다. 따라서 전체 학생 인구가 여학생 50%, 남학생 50%로 구성되어 있다면 남학생 90%, 여학생 10%만 포함되어 있다면 표본이 대표적이지 않을 것입니다.

모집단을 대표하지 않는 표본의 예

또는 전체 모집단이 신입생, 2학년, 3학년, 4학년의 비율로 동일하다면 신입생만 포함했다면 표본이 대표적이지 않을 것입니다.

모집단을 대표하지 않는 표본

대표 샘플 확보의 중요성

우리가 대표 표본을 원하는 이유는 표본의 결과를 모집단에 자신있게 일반화할 수 있기 때문입니다.

예를 들어, 특정 학교의 학생 중 몇 퍼센트가 좋아하는 영화 장르로 “드라마”를 선호하는지 알고 싶다고 가정해 보겠습니다. 전체 학생 인구가 남학생 50%와 여학생 50%로 구성된 경우, 남학생 90%와 여학생 10%로 구성된 표본이 훨씬 적은 수의 남학생이 좋아하는 장르로 연극을 선호한다면 편향된 결과로 이어질 수 있습니다.

또는 전체 모집단에 신입생, 2학년, 3학년, 4학년이 동일하게 혼합된 경우 신입생만 포함하는 표본은 어린 학생(예: 신입생)이 신입생보다 훨씬 더 높은 비율로 연극을 선호하는 경향이 있는 경우 편향된 결과로 이어질 수 있습니다. 나이 많은 학생들.

표본에 포함된 개인의 특성이 전체 모집단에 포함된 개인의 특성과 밀접하게 일치하지 않으면 표본의 결과를 전체 모집단에 자신 있게 일반화할 수 없습니다.

대표 샘플을 얻는 방법

대표 표본을 얻을 가능성을 최대화하려면 표본을 얻을 때 두 가지 사항에 집중해야 합니다.

1. 적절한 샘플링 방법을 사용하십시오.

모집단의 표본을 얻는 방법에는 여러 가지가 있지만 대표 표본을 얻을 수 있는 세 가지 방법은 다음과 같습니다.

단순 무작위 표본: 난수 생성기 또는 무작위 선택 수단을 사용하여 무작위로 개인을 선택합니다.

예: 1,000명의 학생에게 번호를 할당합니다. 다음으로 난수 생성기를 사용하여 난수 100개를 선택하고 해당 학생을 표본 구성원으로 사용합니다.
장점: 각 구성원이 표본에 포함될 확률이 동일하므로 단순 무작위 표본은 일반적으로 관심 모집단을 대표합니다.

체계적 무작위 표본: 모집단의 각 구성원을 특정 순서로 배치합니다. 임의의 시작점을 선택하고 n개 ^중 하나를 표본의 일부로 선택합니다.

예: 학생 1,000명 전체의 성을 기준으로 알파벳순 목록을 만들고 시작점을 무작위로 선택한 다음 표본에 포함될 매 10번째 학생을 선택합니다.
장점: 각 구성원이 표본에 포함될 확률이 동일하므로 체계적 무작위 표본은 일반적으로 관심 모집단을 대표합니다.

층화 무작위 표본: 모집단을 그룹으로 나눕니다. 각 그룹에서 표본에 포함될 몇 명의 구성원을 무작위로 선택합니다.

예: 모든 학생을 수준에 따라 신입생, 2학년, 3학년, 4학년으로 나눕니다. 각 학년에서 표본에 포함될 학생 25명을 무작위로 선택합니다.
장점: 층화된 무작위 표본을 사용하면 각 학년의 동일한 수의 학생이 표본에 포함됩니다.

2. 샘플이 충분히 큰지 확인하십시오.

적절한 표본 추출 방법을 사용하는 것 외에도 더 큰 모집단에 일반화할 수 있을 만큼 충분한 데이터를 확보할 수 있도록 표본의 크기가 충분히 큰지 확인하는 것이 중요합니다.

예를 들어, 각 학년의 남학생 1명, 여학생 1명으로 구성된 8명의 학생 표본은 전체 모집단의 축소 버전을 나타낼 수 있지만 학생 응답에 자연적으로 존재하는 모든 변동성을 포착할 만큼 충분히 크지는 않을 것입니다. .

그렇다면 샘플의 크기는 얼마나 커야 할까요?

이는 다음 요소에 따라 달라집니다.

모집단 규모: 일반적으로 모집단 규모가 클수록 표본도 커야 합니다. 예를 들어, 결과를 단일 도시가 아닌 전체 국가로 일반화하려면 훨씬 더 큰 표본이 필요합니다.
신뢰 수준: 관심 있는 모집단의 실제 값이 신뢰 구간 내에 있는지 얼마나 확신하고 싶은지. 일반적인 신뢰 수준에는 90%, 95%, 99%가 포함됩니다. 신뢰 수준이 높을수록 표본의 크기가 커집니다.
오차 한계: 허용할 수 있는 실수의 수입니다. 완벽한 샘플은 없으므로 최소한 어느 정도의 오류는 기꺼이 감수해야 합니다. 대부분의 연구 조사에서는 오차 범위를 두고 결과를 보고합니다. 예를 들어 “40%의 학생이 연극을 자신이 가장 좋아하는 영화 장르라고 답했으며 오차 범위는 +/- 5%입니다.” » 오차 한계가 낮을수록 샘플 크기가 작아집니다.

이러한 요소를 기반으로 표본 크기를 결정하는 데 도움이 되는 다양한 표본 크기 계산기가 온라인에 있습니다. Survey Monkey의 이 계산기는 특히 사용하기 쉽습니다.

주의할 점

적절한 샘플링 방법을 사용하고 샘플의 크기가 충분히 큰 경우에도 다음 사항에 유의하세요.

샘플링 오류는 항상 존재합니다. 표본은 모집단 전체를 완벽하게 대표할 수 없습니다.
일반적으로 표본이 클수록 모집단을 더 대표하는 것입니다.
시간, 비용 등 실제 변수와 표본 크기의 균형을 맞춰야 합니다. 더 큰 표본이 전체 모집단을 대표할 가능성이 더 높을 수 있지만 표본을 얻는 데는 더 많은 비용과 시간이 소요될 수 있습니다.

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기