샘플링 분포

이 기사에서는 통계에서 샘플링 분포가 무엇인지, 어떤 용도로 사용되는지 설명합니다. 따라서 샘플링 분포의 의미, 샘플링 분포의 구체적인 예, 그리고 가장 일반적인 유형의 샘플링 분포에 대한 공식을 찾을 수 있습니다.

샘플링 분포는 무엇입니까?

표본분포 또는 표본분포는 모집단에서 가능한 모든 표본을 고려하여 얻은 분포입니다. 즉, 표본분포는 모집단에서 가능한 모든 표본의 표본 모수를 계산하여 얻은 분포입니다.

예를 들어 통계 모집단에서 가능한 모든 표본을 추출하고 각 표본의 평균을 계산하면 표본 평균 집합이 표본 분포를 형성합니다. 보다 정확하게는 계산된 모수가 산술평균이므로 평균의 표본분포이다.

통계에서 표본분포는 단일 표본을 연구할 때 모집단 모수 값에 접근할 확률을 계산하는 데 사용됩니다. 마찬가지로, 샘플링 분포를 사용하면 주어진 샘플 크기에 대한 샘플링 오류를 추정할 수 있습니다.

샘플링 분포의 예

이제 샘플링 분포의 정의를 알았으니 개념을 완전히 이해하기 위해 간단한 예를 살펴보겠습니다.

  • 상자에 세 개의 공을 넣고 각 공에는 1부터 3까지의 숫자가 적혀 있습니다. 따라서 한 공에는 숫자 1이 있고 다른 공에는 숫자 2가 있으며 마지막 공에는 숫자 3이 있습니다. 크기가 n인 표본의 경우 = 2에서는 대체 표본을 선택한 경우 평균의 표본 분포 확률을 계산합니다.

샘플은 교체를 통해 선택됩니다. 즉, 샘플의 첫 번째 요소를 선택하기 위해 집어든 공이 상자로 반환되고 두 번째 추출 중에 다시 선택할 수 있습니다. 따라서 모집단에서 가능한 모든 표본은 다음과 같습니다.

1.1 1.2 1.3
2.1 2.2 2.3
3.1 3.2 3.3

따라서 가능한 각 샘플의 산술 평균을 계산합니다.

(1,1) \ \color{orange}\bm{\longrightarrow}\color{black} \ \overline{x}_{11}=\cfrac{1+1}{2}=1

(1,2) \ \color{orange}\bm{\longrightarrow}\color{black} \ \overline{x}_{12}=\cfrac{1+2}{2}=1,5

(1,3) \ \color{orange}\bm{\longrightarrow}\color{black} \ \overline{x}_{13}=\cfrac{1+3}{2}=2

(2,1) \ \color{orange}\bm{\longrightarrow}\color{black} \ \overline{x}_{21}=\cfrac{2+1}{2}=1,5

(2,2) \ \color{orange}\bm{\longrightarrow}\color{black} \ \overline{x}_{22}=\cfrac{2+2}{2}=2

(2,3) \ \color{orange}\bm{\longrightarrow}\color{black} \ \overline{x}_{23}=\cfrac{2+3}{2}=2,5

(3,1) \ \color{orange}\bm{\longrightarrow}\color{black} \ \overline{x}_{31}=\cfrac{3+1}{2}=2

(3,2) \ \color{orange}\bm{\longrightarrow}\color{black} \ \overline{x}_{32}=\cfrac{3+2}{2}=2,5

(3,3) \ \color{orange}\bm{\longrightarrow}\color{black} \ \overline{x}_{33}=\cfrac{3+3}{2}=3

따라서 모집단에서 임의표본을 선택할 때 각 표본평균값을 얻을 확률은 다음과 같다.

샘플 배포 테이블 예

위 표에 나타난 표본분포의 확률은 상기 평균값을 갖는 표본의 수를 가능한 경우의 총수로 나누어 계산하였다. 예를 들어, 표본 평균은 가능한 9개 중 2개의 경우에서 1.5이므로 P(1.5)=2/9입니다.

표본분포의 유형

표본분포(또는 표본분포)는 표본분포를 얻은 표본추출 모수에 따라 분류될 수 있습니다. 따라서 가장 일반적인 유형의 배포판은 다음과 같습니다.

  • 평균의 표본분포 : 각 표본의 산술평균을 계산하여 얻은 표본분포이다.
  • 비례표본분포 : 전체 표본의 비율을 계산하여 얻은 표본분포이다.
  • 표본분산 분포 : 표본의 모든 분산 집합을 구성하는 표본분포입니다.
  • 평균 표본 추출 분포의 차이 : 서로 다른 두 모집단의 가능한 모든 표본 평균 간의 차이를 계산하여 얻은 표본 추출 분포입니다.
  • 비율 표본 분포의 차이 : 두 모집단에서 가능한 모든 표본 비율을 뺀 표본 분포입니다.

각 샘플링 분포 유형에 대해서는 아래에서 자세히 설명합니다.

평균의 표본분포

평균이 있는 정규 확률 분포를 따르는 모집단이 주어지면

\mu

및 표준편차

\sigma

크기 샘플이 추출됩니다.

n

, 평균의 샘플링 분포는 다음과 같은 특성을 갖는 정규 분포로 정의됩니다.

\begin{array}{c}\mu_{\overline{x}}=\mu \qquad \sigma_{\overline{x}}=\cfrac{\sigma}{\sqrt{n}}\\[4ex]\displaystyle N_{\overline{x}}\left(\mu, \frac{\sigma}{\sqrt{n}}\right) \end{array}

\mu_{\overline{x}}

는 평균의 표본분포의 평균이고

\sigma_{\overline{x}}

표준편차입니다. 뿐만 아니라,

\cfrac{\sigma}{\sqrt{n}}

표본분포의 표준오차이다.

참고: 모집단이 정규 분포를 따르지 않지만 표본 크기가 큰 경우(n>30), 평균의 샘플링 분포도 중심 정리 한계에 의해 위의 정규 분포에 근접할 수 있습니다.

따라서 평균의 표본분포는 정규분포를 따르므로 표본평균과 관련된 확률을 계산하는 공식은 다음과 같습니다.

Z=\cfrac{\overline{x}-\mu}{\displaystyle\frac{\sigma}{\sqrt{n}}}

금:

  • \overline{x}

    샘플 수단입니다.

  • \mu

    이는 인구 평균입니다.

  • s

    모집단 표준편차입니다.

  • n

    표본 크기입니다.

  • Z

    는 표준 정규 분포 N(0,1)에 의해 정의되는 변수입니다.

비율의 샘플링 분포

실제로 표본의 일부를 연구할 때 성공 사례를 분석합니다. 따라서 본 연구의 확률변수는 이항확률분포를 따른다.

중심 극한 정리에 따르면 큰 크기(n>30)의 경우 이항 분포를 정규 분포에 더 가깝게 만들 수 있습니다. 따라서 비율의 샘플링 분포는 다음 모수를 사용하여 정규 분포에 가깝습니다.

\begin{array}{c}\displaystyle\mu_{p}=p \qquad \sigma_{p}=\sqrt{\frac{pq}{n}}\\[4ex]\displaystyle N_{p}\left(p, \sqrt{\frac{pq}{n}}\right) \end{array}

p

성공 확률이고

q

실패확률이다

q=1-p

.

참고: 이항 분포는 다음 경우에만 정규 분포로 근사화될 수 있습니다.

n>30″ title=”Rendered by QuickLaTeX.com” height=”14″ width=”52″ style=”vertical-align: -2px;”></p>
<p> ,</p>
<p class=np\ge 5

그리고

nq\ge 5

.

따라서 비율의 표본분포는 정규분포에 근접할 수 있으므로 표본 비율과 관련된 확률을 계산하는 공식은 다음과 같습니다.

Z=\cfrac{\widehat{p}-p}{\displaystyle\sqrt{\frac{pq}{n}}}

금:

  • \widehat{p}

    표본 비율입니다.

  • p

    인구의 비율입니다.

  • q

    모집단의 실패 확률,

    q=1-p

    .

  • n

    표본 크기입니다.

  • Z

    는 표준 정규 분포 N(0,1)에 의해 정의되는 변수입니다.

분산의 표본분포

분산의 샘플링 분포는 카이제곱 확률 분포로 정의됩니다. 따라서 표본분산 분포의 통계 공식은 다음과 같습니다.

\chi^2=\cfrac{(n-1)s^2}{\sigma^2}

금:

  • \chi^2

    카이제곱 분포를 따르는 표본 분산 분포의 통계입니다.

  • n

    표본 크기입니다.

  • s^2

    표본 분산입니다.

  • \sigma^2

    인구 분산입니다.

평균 차이의 샘플링 분포

표본 크기가 충분히 큰 경우(n 1 ≥30 및 n 2 ≥30) 평균 차이의 표본 추출 분포는 정규 분포를 따릅니다. 보다 정확하게는 상기 분포의 매개변수는 다음과 같이 계산됩니다.

\begin{array}{c}\displaystyle \mu_{\overline{x_1}-\overline{x_2}}=\mu_1-\mu_2 \qquad \sigma_{\overline{x_1}-\overline{x_2}}=\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}\\[6ex]\displaystyle N_{\overline{x_1}-\overline{x_2}}\left(\mu_1-\mu_2, \sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}\right) \end{array}

참고: 두 모집단이 모두 정규 분포인 경우 평균 차이의 샘플링 분포는 표본 크기에 관계없이 정규 분포를 따릅니다.

따라서 평균차의 표본분포는 정규분포로 정의되므로 평균차 의 표본분포 통계량을 계산하는 공식은 다음과 같습니다.

Z=\cfrac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\displaystyle\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}

금:

  • \overline{x_i}

    표본 i의 평균입니다.

  • \mu_i

    는 인구 i의 평균이다.

  • \sigma_i

    는 모집단 i의 표준편차입니다.

  • n_i

    표본 크기는 i입니다.

  • Z

    는 표준 정규 분포 N(0,1)에 의해 정의되는 변수입니다.

다양한 모집단의 표본은 표본 크기가 다를 수 있습니다.

비율 차이의 샘플링 분포

비율 표본 추출 분포의 차이를 위해 선택된 표본은 이항 분포로 정의됩니다. 왜냐하면 실제 목적에서 비율은 전체 관찰 수에 대한 성공 사례의 비율이기 때문입니다.

그러나 중심 극한 정리로 인해 이항 분포는 정규 확률 분포에 근접할 수 있습니다. 따라서 비율 차이의 표본분포는 다음과 같은 특징을 갖는 정규분포에 근접할 수 있습니다.

\begin{array}{c}\displaystyle\mu_{\widehat{p_1}-\widehat{p_2}}=p_1-p_2 \qquad \sigma_{\widehat{p_1}-\widehat{p_2}}=\sqrt{\frac{p_1q_1}{n_1}+\frac{p_2q_2}{n_2}}\\[6ex]\displaystyle N_{p}\left(p_1-p_2, \sqrt{\frac{p_1q_1}{n_1}+\frac{p_2q_2}{n_2}}\right) \end{array}

참고: 비율 차이의 샘플링 분포는 다음과 같은 경우에만 정규 분포에 근접할 수 있습니다.

n_1\geq30

,

n_2\geq 30

,

n_1p_1\geq5

,

n_2p_2\geq5

,

n_1q_1\geq5

그리고

n_2q_2\geq5

.

따라서 비율차의 표본분포는 정규분포에 근접할 수 있으므로 비율차의 표본분포 통계량을 계산하는 공식은 다음과 같다.

Z=\cfrac{(\widehat{p_1}-\widehat{p_2})-(p_1-p_2)}{\displaystyle\sqrt{\frac{p_1q_1}{n_1}+\frac{p_2q_2}{n_2}}}

금:

  • \widehat{p_i}

    표본 비율 i입니다.

  • p_i

    인구 i의 비율입니다.

  • q_i

    모집단 i의 실패 확률은 다음과 같습니다.

    q_i=1-p_i

    .

  • n_i

    표본 크기는 i입니다.

  • Z

    는 표준 정규 분포 N(0,1)에 의해 정의되는 변수입니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다