통계는 왜 중요한가요? (통계가 중요한 10가지 이유!)
통계 분야는 데이터의 수집, 분석, 해석 및 표현과 관련이 있습니다.
기술이 우리의 일상생활에 점점 더 많이 존재하게 되면서 인류 역사상 그 어느 때보다 더 많은 데이터가 생성되고 수집되고 있습니다.
통계는 이 데이터를 사용하여 다음 작업을 수행하는 방법을 이해하는 데 도움이 되는 영역입니다.
- 우리 주변의 세계를 더 잘 이해하십시오.
- 데이터를 사용하여 결정을 내립니다.
- 데이터를 활용해 미래를 예측해보세요.
이 글에서는 통계학 분야가 현대 생활에서 그토록 중요한 10가지 이유를 공유합니다.
이유 1: 기술통계를 사용하여 세상을 이해하세요
기술 통계는 원시 데이터를 설명하는 데 사용됩니다. 기술통계에는 세 가지 주요 유형이 있습니다.
- 요약 통계
- 제도법
- 테이블
이러한 각 요소는 기존 데이터를 더 잘 이해하는 데 도움이 될 수 있습니다.
예를 들어, 특정 도시에 거주하는 10,000명의 학생의 시험 점수를 보여주는 원시 데이터 세트가 있다고 가정해 보겠습니다. 당사는 다음과 같은 목적으로 기술 통계를 사용할 수 있습니다.
- 평균 시험 점수와 시험 결과의 표준 편차를 계산합니다.
- 히스토그램이나 상자 그림을 생성하여 테스트 결과의 분포를 시각화합니다.
- 테스트 결과의 분포를 이해하려면 빈도표를 만듭니다.
기술통계를 활용하면 원시 데이터를 보는 것보다 훨씬 쉽게 학생의 시험 점수를 이해할 수 있습니다.
이유 2: 오해의 소지가 있는 그래픽을 조심하세요
저널, 미디어, 온라인 기사 및 잡지에서 점점 더 많은 그래픽이 생성되고 있습니다. 안타깝게도 기본 데이터를 이해하지 못하면 차트가 오해를 불러일으킬 수 있는 경우가 많습니다.
예를 들어, 저널에서 특정 대학 학생의 GPA와 ACT 점수 사이에 음의 상관 관계를 찾는 연구를 발표한다고 가정해 보겠습니다.
그러나 이러한 음의 상관관계는 GPA와 ACT 점수가 모두 높은 학생은 명문 대학에 진학할 수 있고, GPA와 ACT 점수가 모두 낮은 학생은 전혀 입학할 수 없기 때문에 발생합니다.
ACT와 GPA 사이의 상관관계는 모집단에서는 양의 상관관계가 있지만 표본에서는 음의 상관관계가 나타납니다.
이 특별한 편향은 버크슨 편향(Berkson Bias) 으로 알려져 있습니다. 이러한 편향을 인식함으로써 특정 차트에 의해 오해되는 것을 피할 수 있습니다.
이유 3: 혼란스러운 변수에 주의하세요
통계학에서 배우게 될 중요한 개념은 혼란스러운 변수 의 개념입니다.
이는 고려되지 않은 변수이며 실험 결과를 혼란스럽게 하고 신뢰할 수 없는 결론으로 이어질 수 있습니다.
예를 들어, 연구자가 아이스크림 판매와 상어 공격에 대한 데이터를 수집하고 두 변수가 높은 상관 관계를 발견했다고 가정해 보겠습니다. 이것은 아이스크림 판매 증가로 인해 상어 공격이 더 많이 발생한다는 것을 의미합니까?
그럴 것 같지 않습니다. 가장 가능성이 높은 원인은 혼란스러운 가변 온도 입니다. 날씨가 따뜻해지면 아이스크림을 사먹는 사람이 늘어나고, 바다로 나가는 사람도 늘어납니다.
이유 4: 확률을 사용하여 더 나은 결정을 내리기 위해
통계의 가장 중요한 하위 필드 중 하나는 확률 입니다. 사건이 발생할 확률을 연구하는 분야입니다.
확률에 대한 기본적인 이해를 통해 현실 세계에서 더 많은 정보를 바탕으로 결정을 내릴 수 있습니다.
예를 들어, 고등학생이 특정 대학에 합격할 확률이 10%라는 것을 알고 있다고 가정해 보겠습니다. “적어도 하나”에 합격할 확률에 대한 공식을 사용하여 이 학생은 자신이 지원하는 적어도 하나의 대학에 합격할 확률을 찾을 수 있으며 결과에 따라 지원하는 대학의 수를 조정할 수 있습니다.
이유 5: 연구의 P-값 이해하기
통계에서 배우게 될 또 다른 중요한 개념은 p-값 입니다.
p-값의 고전적인 정의는 다음과 같습니다.
p-값은 귀무가설이 참일 때 최소한 표본 통계량만큼 극단적인 표본 통계량을 관찰할 확률입니다.
예를 들어, 한 공장에서 평균 무게가 200파운드인 타이어를 생산한다고 가정해 보겠습니다. 한 감사자는 이 공장에서 생산되는 타이어의 실제 평균 중량이 200파운드 정도 다르다는 가설을 세웠습니다. 그래서 그는 가설 검정을 수행하고 검정의 p-값이 0.04라는 것을 발견했습니다.
이 p-값을 해석하는 방법은 다음과 같습니다.
공장에서 실제로 평균 중량이 200파운드인 타이어를 생산하는 경우 무작위 샘플링 오류로 인해 모든 감사의 4%가 샘플에서 관찰된 효과 이상을 달성하게 됩니다. 이는 공장이 실제로 평균 중량이 200파운드인 타이어를 생산한다면 감사관이 얻은 샘플 데이터를 얻는 것이 매우 드물다는 것을 말해줍니다.
따라서 감사인은 이 공장에서 생산된 타이어의 실제 평균 중량이 실제로 200파운드라는 귀무가설을 기각할 가능성이 높습니다.
이유 6: 상관관계 이해
통계에서 배우게 될 또 다른 중요한 개념은 상관관계 입니다. 이는 두 변수 사이의 선형 연관성을 알려줍니다.
상관 계수의 값은 항상 -1과 1 사이입니다. 여기서:
- -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다.
- 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다.
- 1은 두 변수 사이의 완벽한 양의 선형 상관 관계를 나타냅니다.
이러한 값을 이해함으로써 실제 세계의 변수 간의 관계를 이해할 수 있습니다.
예를 들어, 광고비와 수익의 상관관계가 0.87이면 두 변수 사이에 강한 양의 관계가 있음을 이해할 수 있습니다. 광고에 더 많은 돈을 지출할수록 예측 가능한 수익 증가를 기대할 수 있습니다.
이유 7: 미래에 대해 예측하세요
통계를 배우는 또 다른 중요한 이유는 다음과 같은 기본 회귀 모델을 이해하는 것입니다.
이러한 각 모델을 사용하면 모델의 특정 예측 변수 값을 기반으로 응답 변수 의 미래 값을 예측할 수 있습니다.
예를 들어, 기업에서는 연령, 소득, 인종 등과 같은 예측 변수를 사용할 때 현실 세계에서 항상 다중 선형 회귀 모델을 사용합니다. 매장에서 얼마나 많은 고객이 지출할지 예측합니다.
마찬가지로 물류 회사는 총 수요, 인구 규모 등과 같은 예측 변수를 사용합니다. 미래의 매출을 예측하기 위해.
어떤 분야에서 일하든 회귀 모델을 사용하여 미래 현상을 예측할 가능성이 높습니다.
이유 8: 연구의 잠재적 편견을 이해하세요
통계를 공부하는 또 다른 이유는 실제 연구에서 발생할 수 있는 다양한 유형의 편향을 인식하는 것입니다.
여기 몇 가지 예가 있어요.
이러한 유형의 편견에 대해 기본적으로 이해함으로써 연구를 수행할 때 그러한 편견을 피하거나 다른 연구 논문이나 연구를 읽을 때 이를 인식할 수 있습니다.
이유 9: 통계 테스트의 가정을 이해합니다.
많은 통계 테스트에서는 연구 중인 기본 데이터에 대해 가정을 합니다.
연구 결과를 읽거나 직접 연구를 수행할 때 결과를 신뢰할 수 있으려면 어떤 가정을 해야 하는지 이해하는 것이 중요합니다.
다음 기사에서는 일반적으로 사용되는 많은 통계 테스트 및 절차에서 가정한 내용을 공유합니다.
이유 10: 지나친 일반화를 피하기 위해
통계를 공부하는 또 다른 이유는 과잉일반화 의 개념을 이해하기 위해서입니다.
이는 연구에 참여하는 개인이 전체 모집단의 개인을 대표 하지 않으므로 연구 결과를 전체 모집단에 일반화하는 것이 부적절할 때 발생합니다.
예를 들어, 특정 학교의 학생 중 몇 퍼센트가 좋아하는 영화 장르로 “드라마”를 선호하는지 알고 싶다고 가정해 보겠습니다. 전체 학생 인구가 남학생 50%와 여학생 50%로 구성된 경우, 남학생 90%와 여학생 10%로 구성된 표본이 훨씬 적은 수의 남학생이 좋아하는 장르로 연극을 선호한다면 편향된 결과로 이어질 수 있습니다.
이상적으로는 표본이 모집단의 “소형 버전”과 유사해지기를 원합니다. 따라서 전체 학생 인구가 여학생 50%, 남학생 50%로 구성되어 있다면 남학생 90%, 여학생 10%만 포함되어 있다면 표본이 대표적이지 않을 것입니다.
따라서 직접 설문조사를 진행하든, 설문조사 결과를 읽어보든, 표본 데이터가 전체 모집단을 대표하는지, 설문조사 결과를 모집단에 안심하고 일반화할 수 있는지 이해하는 것이 중요합니다.
추가 리소스
입문 통계에서 가장 중요한 개념에 대한 기본적인 이해를 얻으려면 다음 기사를 확인하십시오.
기술 또는 추론 통계
인구 대 견본
통계와 매개변수
질적 및 양적 변수
측정 수준: 명목, 순서, 간격 및 비율