잘리고 검열된 데이터: 정의 + 예


종종 데이터를 수집할 때 연구자는 특정 값을 검열 하거나 자르기 로 결정할 수 있습니다.

데이터 값을 검열한다는 것은 특정 값보다 낮거나 높은 값에 대한 부분적인 정보만 수집하는 것을 의미합니다.

예를 들어, 어떤 사람의 연간 소득이 $25,000 미만이라는 사실은 알 수 있지만 정확한 연간 소득은 알 수 없습니다.

검열된 데이터의 예

데이터 값을 자르는 것은 데이터 세트에서 특정 값보다 낮거나 높은 값을 제거하는 것을 의미합니다.

예를 들어, 연구자는 연간 $25,000 이상을 버는 개인에게만 관심이 있을 수 있습니다. 따라서 $25,000 미만의 소득을 가진 사람은 데이터 세트에서 간단히 제거됩니다.

잘린 데이터의 예

이 튜토리얼에서는 데이터가 검열되거나 잘릴 수 있는 경우에 대한 몇 가지 예를 제공합니다.

데이터 검열

데이터 값을 검열한다는 것은 특정 값보다 낮거나 높은 값에 대한 부분적인 정보만 수집하는 것을 의미합니다.

다음 예는 데이터 값을 검열하기로 결정할 수 있는 시나리오를 보여줍니다.

예시 1: 연소득

연구자가 연소득에 대한 조사 데이터를 수집한다고 가정해 보겠습니다. 개인의 연간 소득이 $25,000 미만인 경우 정확한 연간 소득을 지정하는 대신 이 소득을 데이터베이스에 “<$25,000″로 보고하기로 결정합니다.

이는 개인의 소득이 일정 금액 미만이라는 것을 알고 있지만 정확한 연간 소득을 알지 못하기 때문에 데이터 검열의 예를 나타냅니다.

예시 2: 오염 수준

생물학자가 다양한 수역의 오염 수준을 측정하기 위해 특정 도구를 사용한다고 가정해 보겠습니다. 해당 도구는 0.002ppm 미만의 오염도를 측정할 수 없습니다. 따라서 이 임계값보다 오염 수준이 낮은 수역은 정확한 양이 아닌 “<0.002″로 보고됩니다.

이는 일부 수역의 오염 수준이 0.002ppm 미만이라는 것을 알고 있지만 정확한 오염 수준을 알지 못하기 때문에 데이터 검열의 예를 나타냅니다.

데이터 자르기

데이터 값을 자르는 것은 데이터 세트에서 특정 값보다 낮거나 높은 값을 제거하는 것을 의미합니다.

다음 예에서는 데이터 값을 자르기로 결정할 수 있는 시나리오를 보여줍니다.

예시 1: 범죄 건수

법 집행관이 특정 지역에서 개인이 저지르는 범죄 유형을 조사한다고 가정해 보겠습니다. 기본적으로 범죄를 저지른 적이 없는 사람은 어떤 유형의 범죄도 저지르지 않았기 때문에 데이터 세트에 포함되지 않습니다.

범죄를 저지르지 않은 사람은 데이터 세트에서 완전히 제외되기 때문에 이는 잘린 데이터의 예를 나타냅니다.

예시 2: 교육 수준

교수가 특정 커리큘럼과 학생 성과 사이의 관계를 연구하고 싶어한다고 가정해 보겠습니다.

커리큘럼의 강도 때문에 교수는 현재 GPA가 3.5 이상인 학생들만 따르기를 원합니다. 따라서 프로그램에 지원하지만 GPA가 3.5 미만인 학생은 프로그램에 포함되지 않습니다.

이는 GPA가 특정 임계값 미만인 사람은 누구나 데이터 세트에서 제외되므로 잘린 데이터의 예를 나타냅니다.

요약

데이터를 검열한다는 것은 데이터 값에 대한 부분적인 정보만 수집하는 것을 의미하고, 데이터를 자르는 것은 데이터 세트에서 데이터 값을 완전히 제거하는 것을 의미합니다.

검열과 절단 모두 데이터 세트의 정보가 손실되는 결과를 가져오지만, 절단은 특정 데이터 값을 완전히 제외하므로 정보 손실이 더 커집니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다