변화

에 의해 벤자민 앤더슨 8월 5, 2023 통계 댓글 0개

이 글에서는 분산이라고도 불리는 분산이 무엇인지, 그리고 어떻게 계산되는지 설명합니다. 분산 계산의 구체적인 예인 분산 공식을 찾을 수 있으며, 또한 온라인 계산기를 사용하여 모든 데이터 세트의 분산을 계산할 수 있습니다.

또한 그룹화된 데이터의 분산을 찾는 방법도 다른 방식으로 수행되므로 보여줍니다. 마지막으로 모집단 분산과 표본 분산의 차이, 분산과 표준 편차의 차이, 그리고 이 통계 측정의 속성을 알려드립니다.

분산이란 무엇입니까?

통계에서 분산은 무작위 변수의 변동성을 나타내는 분산 척도입니다. 분산은 잔차 제곱의 합을 총 관측치 수로 나눈 값과 같습니다.

잔차는 통계 데이터 포인트 값과 데이터 세트 평균 간의 차이로 이해됩니다.

확률 이론에서 분산의 기호는 그리스 문자 시그마 제곱(σ ² )입니다. 일반적으로 Var(X) 로 표시되지만 X는 분산이 계산되는 무작위 변수입니다.

일반적으로 확률변수의 분산값을 해석하는 것은 간단합니다. 분산 값이 클수록 데이터가 더 많이 분산됩니다. 반대로, 분산 값이 작을수록 데이터 계열의 분산이 줄어듭니다. 그러나 분산을 해석할 때는 분산 값을 왜곡할 수 있으므로 이상값에 주의해야 합니다.

분산 외에 분산으로 간주되는 기타 측정값으로는 범위, 표준 편차, 평균 편차 및 변동 계수가 있습니다.

격차를 계산하는 방법

분산을 계산하려면 다음 단계를 수행해야 합니다.

데이터 세트의 산술 평균을 구합니다.
데이터 세트의 값과 평균 사이의 차이로 정의된 잔차를 계산합니다.
나머지를 각각 제곱합니다.
이전 단계에서 계산된 모든 결과를 추가합니다.
총 데이터 수로 나눕니다. 얻은 결과는 데이터 계열의 분산입니다.

결론적으로, 데이터 세트의 분산을 계산하는 공식은 다음과 같습니다.

금:

$X$

분산을 계산하려는 확률 변수입니다.
$x_i$

데이터 값입니다

$i$

.
$n$

총 관측치 수입니다.
$\overline{X}$

확률변수의 평균이다

$X$

.

👉 아래 계산기를 사용하여 모든 데이터 세트의 분산을 계산할 수 있습니다.

따라서 데이터 계열에서 분산을 추출하려면 산술 평균이 어떻게 계산되는지 아는 것이 중요합니다. 어떻게 하는지 기억나지 않는다면 위에 링크된 글에서 확인하실 수 있습니다.

편차의 예

이제 분산의 정의를 알았으니, 데이터 시리즈의 분산이 어떻게 얻어지는지 볼 수 있도록 단계별로 연습문제를 풀어보겠습니다.

다국적 기업의 경우 지난 5년 동안 얻은 경제적 결과가 알려져 있으며 대부분은 이익을 얻었지만 1년 동안 1150만, 2, -9, 700만 유로의 상당한 손실을 입었습니다. 이 데이터 세트의 분산을 계산합니다.

위의 설명에서 보았듯이, 데이터 계열의 분산을 찾기 위해 가장 먼저 해야 할 일은 산술 평균을 계산하는 것입니다.

$\overline{X}=\cfrac{11+5+2+(-9)+7}{5}=3,2$

그리고 데이터의 평균값을 알면 분산 공식을 사용할 수 있습니다.

$Var(X)=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2}{n}$

운동 선언문에서 제공한 데이터를 공식으로 대체합니다.

$Var(X)=\cfrac{\displaystyle (11-3,2)^2+(5-3,2)^2+(2-3,2)^2+(-9-3,2)^2+(7-3,2)^2}{5}$

마지막으로 남은 것은 분산을 계산하기 위한 연산을 해결하는 것입니다.

$\begin{aligned}Var(X)&=\cfrac{7,8^2+1,8^2+(-1,2)^2+(-12,2)^2+3,8^2}{5}\\[2ex]&=\cfrac{60,84+3,24+1,44+148,84+14,44}{5}\\[2ex]&= \cfrac{228,8}{5} \\[2ex]&=45,76 \ \text{millones de euros}^2\end{aligned}$

분산 단위는 통계 데이터와 동일한 단위이지만 제곱이므로 이 데이터 그룹의 분산은 4,576만 유로 ² 입니다.

갭 계산기

통계 데이터 세트를 다음 계산기에 입력하여 분산을 계산합니다. 데이터는 공백으로 구분해야 하며 소수점 구분 기호로 마침표를 사용하여 입력해야 합니다.

그룹화된 데이터의 차이

간격으로 그룹화된 데이터의 분산을 계산하려면 다음 단계를 따라야 합니다.

그룹화된 데이터의 평균을 구합니다.
그룹화된 데이터의 잔차를 계산합니다.
나머지를 각각 제곱합니다.
각 이전 결과에 해당 간격의 빈도를 곱합니다.
이전 단계에서 얻은 모든 값의 합계를 더합니다.
총 관찰 수로 나눕니다. 결과 숫자는 그룹화된 데이터의 분산입니다.

즉, 구간별로 그룹화된 데이터의 분산을 계산하는 공식은 다음과 같습니다.

$Var(X)=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2\cdot f_i }{n}$

위의 공식이 일반적으로 사용되지만 아래의 대수식도 동일하므로 사용할 수 있습니다.

$Var(X)=\cfrac{\displaystyle\sum_{i=1}^n x_i^2\cdot f_i }{n}-\overline{X}^2$

예를 들어, 다음과 같이 그룹화된 데이터 시리즈의 분산을 찾아보겠습니다.

먼저 그룹화된 데이터의 평균을 결정해야 합니다. 이를 위해 클래스 마크와 빈도의 곱을 사용하여 빈도 테이블에 열을 추가합니다.

이제 추가된 열의 합계를 총 데이터 수로 나누어 그룹화된 데이터의 평균을 계산합니다.

$\overline{X}=\cfrac{\displaystyle\sum_{i=1}^n x_i\cdot f_i}{n}=\cfrac{750}{30}=25$

그리고 계산된 데이터의 평균에서 다음 세 개의 열을 추가할 수 있습니다.

따라서 풀링된 데이터 세트의 분산은 마지막 열의 합계를 관찰된 데이터의 총 개수로 나눈 값입니다.

$Var(X)=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2\cdot f_i }{n}=\cfrac{4200}{30}=140$

분산 및 표준편차

분산과 표준편차(또는 표준편차)는 두 가지 분산 측정값이므로 둘 다 데이터 세트의 분산 정도를 나타냅니다. 그러나 분산과 표준 편차의 차이점은 일반적으로 분산은 표준 편차의 제곱이므로 더 큰 값을 갖는다는 것입니다.

표준 편차는 일반적으로 그리스 문자 시그마(σ)로 표시되며 이러한 이유로 분산은 문자 시그마 제곱(σ ² )으로 표시됩니다. 이는 두 분산 측정항목 사이에 존재하는 수학적 관계이기 때문입니다.

$Var(X)=\sigma^2$

따라서 데이터 세트의 분산 값을 계산한 후에는 단순히 분산의 제곱근을 취하여 동일한 세트의 표준 편차 값을 쉽게 찾을 수 있습니다.

$\sigma=\sqrt{\sigma^2}$

모집단 분산 및 표본 분산

논리적으로 모집단 분산은 통계적 모집단의 분산을 계산하는 것을 말하며, 대신 표본의 분산 계산에는 표본 분산을 적용합니다. 그러나 모집단 분산 공식은 표본 분산 공식과 다르기 때문에 이는 서로 다른 두 가지 개념입니다.

일반적으로 분산 연습에서 별도로 지시하지 않는 경우 제공된 데이터 세트의 분산을 찾으려면 기사의 시작 부분에서 설명했던 모집단 분산 공식을 사용해야 합니다.

$\sigma^2=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2}{n}$

그러나 일부 문제에서는 통계 데이터를 표본으로 처리해야 할 수도 있으며, 이 경우 표본 분산 공식을 사용해야 합니다.

$s^2=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2}{n-1}$

모집단 분산이 계산된다는 것을 나타내기 위해 그리스 문자 σ로 표시되지만, 표본 분산을 계산할 때는 문자 s가 사용됩니다.

보시다시피 두 공식의 유일한 차이점은 표본의 분산을 총 관측치 수에서 1을 뺀 값으로 나누어야 한다는 것입니다. 예를 들어 총 30개의 데이터 항목이 있는 경우 29로 나눕니다. 그러나 분자 계산은 정확히 같은 방식으로 수행됩니다.

분산 속성

분산에는 다음과 같은 속성이 있습니다.

임의 변수의 분산은 항상 0보다 크거나 같습니다. 마찬가지로 분산이 0이면 모든 통계 데이터가 동일하다는 의미입니다.

$Var(x)\ge 0$

분명히 단일 값의 분산은 0입니다.

$Var(a)=0\qquad a\in \mathbb{R}$

변수에 의한 스칼라 곱의 분산은 해당 스칼라의 제곱에 변수 분산을 곱한 것과 같습니다.

$Var(aX)=a^2\cdot Var(X)\qquad a\in \mathbb{R}$

두 종속변수의 합에 대한 분산은 각 변수의 개별 분산에 두 변수 간의 공분산의 두 배를 합한 것과 같습니다.

$Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)$

결과적으로 두 변수가 독립인 경우 합계의 분산을 결정하려면 분산을 추가하면 충분합니다.

$Var(X+Y)=Var(X)+Var(Y)$

편차는 다음 공식을 사용하여 수학적 기대값으로 정의할 수도 있습니다.

$Var(X)=E\bigl[(X-\overline{X})^2\bigr]$

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기