공개 배포란 무엇입니까?


통계에서 개방형 분포는 하나 이상의 클래스(또는 “빈”)가 열려 있는 빈도 분포입니다.

예를 들어, 다음 빈도 분포는 가장 작은 클래스가 열려 있는 열린 분포를 나타냅니다.

그리고 다음 빈도 분포는 가장 큰 클래스가 열려 있는 개방형 분포를 보여줍니다.

반대로, 폐쇄 분포는 각 빈도 분포 클래스에 다음과 같이 상한과 하한이 있는 분포입니다.

공개 배포의 원인은 무엇입니까?

공개 배포는 종종 연구자들이 클래스 중 하나가 공개되는 방식으로 데이터를 수집하기로 선택한 결과입니다.

예를 들어, 연구자가 특정 도시의 주민들을 대상으로 연간 가계 소득에 대해 질문한다고 가정해 보겠습니다.

연구자는 고소득 거주자가 자신의 수입이 $100,000보다 훨씬 클 경우 자신의 수입을 공유하는 것이 불편할 수 있다는 점을 알고 있기 때문에 “>$100,000″라는 가능한 가장 광범위한 답변을 제공하기로 선택할 수 있습니다.

반대로, 연구자는 수입이 거의 없는 주민들도 자신이 벌어들인 수입을 공유하는 것이 불편할 것이라는 점을 알고 있기 때문에 가능한 가장 짧은 답변을 제공하기로 선택할 수도 있습니다.

간단히 말해서, 연구자들은 설문조사 질문에 편안하게 답변할 수 있는 사람들의 수를 최대화하기 위해 설문조사에 공개 강좌를 포함시키는 경우가 많습니다.

공개 배포의 문제

공개 배포의 문제점은 실제 데이터가 검열 된다는 것입니다. 즉, 특정 도시에서 $100,000 이상을 버는 사람들의 수는 알 수 있지만 실제로 그들의 정확한 연간 소득은 알 수 없습니다.

일부 사람들은 $150,000, $250,000, $500,000 또는 그 이상을 벌 가능성이 있지만, 이 사람들 각각이 ‘조사에서 $100,000’ 이상을 벌었다고 표시할 수 없기 때문에 우리는 알 수 없습니다.

공개 분포에서는 데이터가 검열되므로 원시 데이터의 모든 값에 액세스할 수 없기 때문에 데이터 세트 값의 정확한 평균 및 표준 편차를 계산할 수도 없습니다.

공개 배포판을 분석하는 방법

개방형 분포의 정확한 평균을 계산할 수 없기 때문에 종종 중앙값을 데이터 세트의 “중심”을 측정하는 데 사용합니다.

중앙값은 데이터 세트의 중간 값을 나타냅니다.

개방형 분포로 작업할 때 다음 공식을 사용하여 중앙값의 최상의 추정치를 찾을 수 있습니다.

중앙값의 최선 추정치: L + ((n/2 – F) / f) * w

금:

  • L: 중간군의 하한값
  • n: 총 관측치 수
  • F: 중간그룹까지의 누적도수
  • f: 중간 그룹의 빈도
  • w: 중간 그룹의 너비

예를 들어 다음과 같은 공개 배포가 있다고 가정해 보겠습니다.

데이터 세트에는 총 72개의 값이 있습니다. 따라서 우리는 중앙값이 데이터 세트에서 36번째에서 37번째로 큰 값 사이에 있을 것이라는 것을 알고 있습니다. 이러한 각 값은 “$60,000 – $79,999” 클래스에 속하므로 중간 소득이 해당 범위에 있음을 알 수 있습니다.

중앙값에 대한 최선의 추정치는 다음과 같습니다.

중앙값: 60,000 + ((72/2 – 25) / 19) * 19,999 = $71,578

이 값은 이 데이터 세트에 있는 개인의 평균 연간 소득에 대한 최선의 추정치를 나타냅니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다