完全ガイド: データ内の外れ値を削除する場合
外れ値とは、データセット内の他の値から異常に離れている観測値です。
外れ値は分析結果に影響を与える可能性があるため、問題となる場合があります。
ただし、異常な症例やまれな特性を持つ個人を明らかにすることができるため、研究したデータについての洞察も得られます。
どのような分析でも、外れ値を削除するか保持するかを決定する必要があります。
幸いなことに、次のフローチャートを使用して決定を行うことができます。
フローチャート内の各質問を詳しく見てみましょう。
外れ値はデータ入力エラーの結果ですか?
データセット内の外れ値は、単にデータ入力エラーの結果である場合があります。
たとえば、生物学者が特定の植物種の高さに関するデータを収集し、次のデータを記録するとします。
- 6.83インチ
- 7.51インチ
- 5.21インチ
- 5.84インチ
- 7.83インチ
- 755インチ
- 6.53インチ
- 6.31インチ
- 5.91インチ
明らかに、755 インチのエントリは外れ値であり、データ入力エラーの結果である可能性があります。おそらく高さは 7.55 インチであるはずですが、単に間違って入力されただけです。
生物学者がこの観察を維持し、サンプル内の植物の平均高さなどの記述統計を計算した場合、この観察により結果が大きく歪められ、真の平均植物高の不正確な画像が得られることになります。
このシナリオ (およびこれと同様のシナリオ) では、この外れ値はエラーであり、分析に含める正当なデータ ポイントではないため、データ セットから削除することが理にかなっています。
外れ値は分析結果に大きな影響を与えますか?
観測値が真の外れ値であり、単なるデータ入力エラーの結果ではない場合は、その外れ値が分析結果に影響を与えるかどうかを調べる必要があります。
たとえば、生物学者が肥料と草丈の関係を研究しているとします。彼女は、肥料を予測変数として、植物の高さを応答変数として使用して、単純な線形回帰モデルを当てはめたいと考えています。
12 の異なる工場について次のデータを収集します。
最後の観察が異常であることは明らかです。
ただし、散布図を作成してこのデータ セットを視覚化すると、外れ値を含めるかどうかに関係なく回帰直線があまり変わらないことがわかります。
このシナリオでは、外れ値は実際には線形回帰モデルのどの仮定にも違反していないため、外れ値をデータセット内に保持できます。
ただし、データに次の外れ値があるとします。
明らかに、この外れ値は回帰直線に大きな影響を与えるため、外れ値を含む回帰モデルと外れ値を含まない回帰モデルを 1 つずつ当てはめて、両方の回帰モデルの結果を報告することができます。
外れ値は分析で行われた仮定に影響しますか?
外れ値がデータ入力エラーの結果ではなく、分析結果に大きな影響を与えない場合、その外れ値が分析で立てられた仮説に影響を与えるかどうかを尋ねる必要があります。分析。
仮定に影響を与えない場合は、データに残しておくだけで済みます。
ただし、これが仮定に影響を与える場合は、いくつかの選択肢があります。
1.取り外します。データからそれを削除し、結果を報告するときにメモするだけで済みます。
2. データに対して変換を実行します。外れ値を削除する代わりに、データの変換を実行してみることもできます。たとえば、データ内のすべての値の平方根または対数を取得します。これにより外れ値が減り、多くの場合、データがより正規分布になることがわかっています。
データ内の外れ値をどのように処理するかに関係なく、その決定をその理由とともに分析結果に記録する必要があります。
追加リソース
次のチュートリアルでは、さまざまな統計ソフトウェアで外れ値を見つけて削除する方法について説明します。
Excel で外れ値を見つける方法
Googleスプレッドシートで外れ値を見つける方法
R で外れ値を見つける方法
Python で外れ値を見つける方法
SPSS で外れ値を見つける方法