切り捨てられたデータと検閲されたデータ: 定義と例
多くの場合、データを収集するときに、研究者は特定の値を検閲または切り捨てることを決定することがあります。
データ値の打ち切りとは、特定の値を下回るまたは上回る値に関する部分的な情報のみを収集することを意味します。
たとえば、ある人の年収が 25,000 ドル未満であることはわかっていても、正確な年収はわからない場合があります。
データ値の切り捨てとは、特定の値を下回るまたは上回る値をデータ セットから削除することを意味します。
たとえば、研究者は年収 25,000 ドルを超える個人にのみ興味があるかもしれません。したがって、収益が 25,000 ドル未満の人は単純にデータセットから削除されます。
このチュートリアルでは、データが検閲または切り捨てられる場合の例をいくつか示します。
データ検閲
データ値の打ち切りとは、特定の値を下回るまたは上回る値に関する部分的な情報のみを収集することを意味します。
次の例は、データ値を検閲することを決定するシナリオを示しています。
例1:年収
研究者が年収に関する調査データを収集したとします。個人の年収が 25,000 ドル未満の場合、正確な年収を指定するのではなく、この収入をデータベースに「<25,000 ドル」として報告することにします。
これは、個人の収入が一定額未満であることはわかっていますが、正確な年収はわからないため、データ検閲の一例です。
例 2: 汚染レベル
生物学者が特定のツールを使用して、さまざまな水域の汚染レベルを測定するとします。そのツールは、0.002ppm未満の汚染を測定することができません。したがって、このしきい値を下回る汚染レベルの水域は、正確な量ではなく、単純に「<0.002」として報告されます。
これはデータ検閲の一例です。なぜなら、一部の水域の汚染レベルが 0.002 ppm 未満であることはわかっていますが、その正確な汚染レベルがわからないからです。
データの切り詰め
データ値の切り捨てとは、特定の値を下回るまたは上回る値をデータ セットから削除することを意味します。
次の例は、データ値を切り捨てることを決定するシナリオを示しています。
例 1: 犯罪数
法執行官が、特定の地域で個人が犯した犯罪の種類を調査しているとします。デフォルトでは、犯罪を犯したことが 0 件の人は、いかなる種類の犯罪も犯していないため、データセットには含まれません。
これは、犯罪を犯していない人は単にデータ セットから完全に除外されるため、切り捨てられたデータの例を表しています。
例 2: 教育レベル
教授が特定のカリキュラムと学生の成績との関係を研究したいと考えているとします。
カリキュラムの密度が高いため、教授は現在 GPA が 3.5 を超える学生のみをフォローしたいと考えています。したがって、プログラムに応募しても GPA が 3.5 未満の学生はプログラムに含まれません。
これは、GPA が特定のしきい値を下回る人は単純にデータ セットから除外されるため、切り捨てられたデータの例を表しています。
まとめ
データの打ち切りとは、データ値に関する部分的な情報のみを収集することを意味し、データの切り捨てとは、データセットからデータ値を完全に削除することを意味します。
打ち切りと切り捨てのどちらもデータ セット内の情報が失われますが、切り捨てでは特定のデータ値が完全に除外されるため、情報の損失が大きくなります。