기술통계 또는 추론통계: 차이점은 무엇인가요?


통계 분야에는 두 가지 주요 분야가 있습니다.

  • 기술통계
  • 추론 통계

이 튜토리얼에서는 두 분기의 차이점과 각 분기가 특정 상황에서 유용한 이유를 설명합니다.

기술 통계

간단히 말해서, 기술 통계는 요약 통계, 그래프 및 표를 사용하여 일련의 원시 데이터를 설명하는 것을 목표로 합니다.

기술 통계는 원시 데이터 값의 행과 행을 보는 것보다 훨씬 더 빠르고 쉽게 데이터 그룹을 이해할 수 있게 해주기 때문에 유용합니다.

예를 들어, 특정 학교에 다니는 1,000명의 학생의 시험 점수를 보여주는 원시 데이터 세트가 있다고 가정해 보겠습니다. 우리는 평균 시험 점수와 시험 점수 분포에 관심이 있을 수 있습니다.

기술 통계를 사용하여 평균 점수를 찾고 점수 분포를 시각화하는 데 도움이 되는 그래프를 만들 수 있었습니다.

이를 통해 원시 데이터를 보는 것보다 훨씬 쉽게 학생의 시험 점수를 이해할 수 있습니다.

기술통계의 일반적인 형태

기술통계에는 세 가지 일반적인 형태가 있습니다.

1. 요약 통계. 단일 숫자를 사용하여 데이터를 요약한 통계입니다. 요약 통계에는 두 가지 일반적인 유형이 있습니다.

  • 중심 경향 측정 : 이 숫자는 데이터 세트의 중심이 어디에 있는지를 나타냅니다. 예에는 평균이 포함됩니다.   그리고 중앙값 .
  • 분산 측정: 이 숫자는 데이터 세트의 값 분포를 설명합니다. 예로는 구간 , 사분위간 범위 , 표준편차, 분산 등이 있습니다.

2. 그래픽 . 차트는 데이터를 시각화하는 데 도움이 됩니다. 데이터를 시각화하는 데 사용되는 일반적인 유형의 차트에는 상자 그림 , 히스토그램 , 줄기 및 잎 그림, 산점도가 포함됩니다.

3. 테이블 . 테이블은 데이터가 어떻게 배포되는지 이해하는 데 도움이 될 수 있습니다. 일반적인 유형의 테이블은 특정 범위 내에 얼마나 많은 데이터 값이 속하는지 알려주는 빈도 테이블 입니다.

기술통계 활용 예

다음 예는 실제 세계에서 기술 통계를 어떻게 사용할 수 있는지 보여줍니다.

어떤 학교에서 1,000명의 학생이 모두 같은 시험을 본다고 가정합니다. 우리는 테스트 결과의 분포를 이해하기 위해 다음과 같은 기술 통계를 사용합니다.

1. 요약통계

평균: 82.13 . 이는 1,000명의 학생의 평균 시험 점수가 82.13점임을 의미합니다.

중앙값: 84. 이는 모든 학생의 절반이 84점 이상, 나머지 절반은 84점 미만을 기록했음을 의미합니다.

최대: 100. 최소: 45. 이는 모든 학생이 얻은 최대 점수가 100이고 최소 점수가 45임을 나타냅니다. 최대와 최소의 차이를 나타내는 범위 는 55입니다.

2. 그래픽

테스트 결과의 분포를 시각화하기 위해 직사각형 막대를 사용하여 빈도를 나타내는 차트 유형인 히스토그램을 만들 수 있습니다.

이 히스토그램을 보면 시험 점수의 분포가 대략 종 모양임을 알 수 있습니다. 대부분의 학생은 70~90점을 받았고, 95점 이상을 받은 학생은 거의 없었고, 50점 미만을 받은 학생은 더 적었습니다.

3. 테이블

점수 분포를 이해하는 또 다른 쉬운 방법은 빈도표를 만드는 것입니다. 예를 들어, 다음 빈도표는 다양한 범위에서 득점한 학생의 비율을 보여줍니다.

전체 학생 중 4%만이 95점 이상을 기록했다는 것을 알 수 있습니다. 또한 전체 학생 중 25%가 85점 이상을 기록했다는 것도 알 수 있습니다. (12% + 9% + 4% = )

빈도표는 특정 값보다 높거나 낮은 데이터 값의 비율을 알고 싶을 때 특히 유용합니다. 예를 들어, 학교에서 75점 이상의 모든 점수를 “허용 가능한” 시험 점수로 간주한다고 가정해 보겠습니다.

빈도표를 보면 (20% + 22% + 12% + 9% + 4% = ) 67%의 학생이 시험에서 합격 점수를 받았음을 쉽게 알 수 있습니다.

추론 통계

간단히 말해서, 추론 통계는 작은 데이터 표본을 사용하여 표본이 추출되는 더 큰 모집단에 대한 결론을 도출합니다.

예를 들어, 우리는 한 국가에 있는 수백만 명의 정치적 선호도를 이해하고 싶을 수 있습니다.

그러나 국내의 모든 개인을 조사하는 것은 너무 많은 시간과 비용이 소요됩니다. 따라서 우리는 대신 1,000명의 미국인을 대상으로 소규모 설문조사를 실시하고 설문조사 결과를 사용하여 전체 인구에 대한 결론을 도출합니다.

이것이 추론 통계의 전체적인 전제입니다. 모집단에 관한 질문에 답하고 싶기 때문에 해당 모집단의 작은 표본에 대한 데이터를 얻고 표본 데이터를 사용하여 모집단에 대한 추론을 이끌어냅니다.

대표 표본의 중요성

모집단에 대한 결론을 도출하기 위해 표본을 사용할 수 있는 능력을 확신하려면 대표 표본 , 즉 모집단에 속한 개인의 특성이 표본과 밀접하게 일치하는 표본이 있는지 확인해야 합니다. 형질. 전체 인구의.

이상적으로는 표본이 모집단의 “소형 버전”과 유사해지기를 원합니다. 따라서 여학생이 50%, 남학생이 50%로 구성된 학생 모집단에 대한 결론을 도출하려는 경우, 남학생이 90%이고 여학생이 10%만 포함되어 있다면 표본이 대표적이지 않을 것입니다.

표본이 전체 모집단과 유사하지 않으면 표본의 결과를 전체 모집단에 자신있게 일반화할 수 없습니다.

대표 샘플을 얻는 방법

대표 표본을 얻을 가능성을 최대화하려면 다음 두 가지에 집중해야 합니다.

1. 무작위 샘플링 방법을 사용하는지 확인하십시오.

다음을 포함하여 대표 표본을 생성할 수 있는 여러 가지 무작위 표본 추출 방법이 있습니다.

  • 단순 무작위 표본
  • 체계적인 무작위 표본
  • 클러스터 무작위 표본
  • 계층화된 무작위 표본

무작위 표본추출 방법은 모집단의 각 구성원이 표본에 포함될 확률이 동일하기 때문에 대표적인 표본을 생성하는 경향이 있습니다.

2. 표본 크기가 충분히 큰지 확인하십시오 .

적절한 샘플링 방법을 사용하는 것 외에도 더 큰 모집단에 일반화할 수 있을 만큼 충분한 데이터를 확보할 수 있도록 샘플 크기가 충분히 큰지 확인하는 것이 중요합니다.

표본 크기를 결정하려면 연구 중인 모집단의 크기, 사용하려는 신뢰도, 허용 가능한 오차 한계를 고려해야 합니다.

다행스럽게도 온라인 계산기를 사용하여 이러한 값을 입력하고 표본 크기가 얼마인지 확인할 수 있습니다.

추론 통계의 일반적인 형태

추론 통계에는 세 가지 일반적인 형태가 있습니다.

1. 가설 테스트.

우리는 종종 다음과 같은 모집단에 관한 질문에 답하고 싶어합니다.

  • 후보 A를 지지하는 오하이오 사람들의 비율이 50%보다 큽니까?
  • 특정 식물의 평균 키가 14인치인가요?
  • A학교와 B학교 학생의 평균 키에 차이가 있나요?

이러한 질문에 답하기 위해 표본의 데이터를 사용하여 모집단에 대한 결론을 도출할 수 있는 가설 검정을 수행할 수 있습니다.

2. 신뢰 구간 .

때로는 모집단의 특정 값을 추정하고 싶을 때가 있습니다. 예를 들어, 호주의 특정 식물 종의 평균 높이에 관심이 있을 수 있습니다.

전국의 모든 식물을 돌아다니며 측정하는 대신, 작은 식물 샘플을 모아서 하나하나 측정할 수 있었습니다. 그런 다음 표본에 있는 식물의 평균 키를 사용하여 개체군의 평균 키를 추정할 수 있습니다.

그러나 우리의 표본은 완벽한 모집단 추정치를 제공할 가능성이 낮습니다. 다행스럽게도 우리는 실제 모집단 매개변수가 있다고 확신하는 값 범위를 제공하는 신뢰 구간을 생성하여 이러한 불확실성을 설명할 수 있습니다.

예를 들어, [13.2, 14.8]의 95% 신뢰 구간을 생성할 수 있습니다. 즉, 이 식물 종의 실제 평균 키가 13.2인치에서 14.8인치 사이라는 것을 95% 확신한다는 의미입니다.

3. 회귀 .

때때로 우리는 모집단의 두 변수 사이의 관계를 이해하고 싶습니다.

예를 들어, 일주일에 공부하는 시간이 시험 점수 와 관련이 있는지 알고 싶다고 가정해 보겠습니다. 이 질문에 답하기 위해 회귀 분석 이라는 기술을 수행할 수 있습니다.

따라서 100명의 학생을 대상으로 공부한 시간과 시험 점수를 살펴보고 회귀 분석을 수행하여 두 변수 사이에 유의미한 관계가 있는지 확인할 수 있습니다.

회귀 분석의 p-값이 유의미한 것으로 확인되면 전체 학생 모집단에서 이 두 변수 사이에 유의미한 관계가 있다는 결론을 내릴 수 있습니다.

기술 통계와 추론 통계의 차이점

요약하면 기술통계와 추론통계의 차이점은 다음과 같이 설명할 수 있습니다.

기술 통계는 요약 통계, 그래프, 표를 사용하여 데이터 집합을 설명합니다 .

이는 모든 개별 데이터 값을 거치지 않고도 데이터 세트를 빠르고 쉽게 이해하는 데 유용합니다.

추론 통계는 표본을 사용하여 더 큰 모집단에 대한 결론을 도출합니다.

모집단에 대해 답변하려는 질문에 따라 가설 검정, 신뢰 구간 및 회귀 분석 중 하나 이상의 방법을 사용하기로 결정할 수 있습니다.

이러한 방법 중 하나를 사용하기로 선택한 경우 표본이 모집단을 대표해야 한다는 점을 명심하세요. 그렇지 않으면 도출한 결론이 신뢰할 수 없게 됩니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다