四分位範囲を使用して外れ値を見つける方法
外れ値とは、データセット内の他の値から異常に離れている観測値です。外れ値は分析結果に影響を与える可能性があるため、問題となる場合があります。
データセット内の外れ値を検出する一般的な方法は、四分位範囲を使用することです。
四分位範囲 (IQR と略されることもよくあります) は、データセット内の 25 パーセンタイル (Q1) と 75 パーセンタイル (Q3) の差です。値の平均 50% の分布を測定します。
一般的な方法は、観測値の値が IQR の 1.5 倍または 1.5 倍低い場合に、その観測値を外れ値として宣言することです。
このチュートリアルでは、この方法を使用してデータセット内の外れ値を見つける方法の段階的な例を示します。
ステップ 1: データを作成する
次のデータセットがあるとします。
ステップ 2: 第 1 四分位数と第 3 四分位数を特定する
最初の四分位は5であることが判明し、第 3 四分位は20.75であることがわかります。
したがって、四分位範囲は 20.75 -5 = 15.75となります。
ステップ 3: 下限値と上限値を見つける
下限は次のように計算されます。
下限値 = Q1 – 1.5*IQR = 5 – 1.5*15.75 = -18.625
そして、上限は次のように計算されます。
上限 = Q3 + 1.5*IQR = 20.75 + 1.5*15.75 = 44.375
ステップ 4: 外れ値を特定する
データセット内の値が下限を下回るか上限を超える唯一の観測値は46です。したがって、これがこのデータセット内の唯一の外れ値です。
注:この外れ値境界計算ツールを使用すると、特定のデータ セット内の外れ値の上限と下限を自動的に見つけることができます。
実際に外れ値を見つける方法
次のチュートリアルでは、さまざまな統計ソフトウェアで四分位範囲を使用して外れ値を見つける方法について説明します。
Excel で外れ値を見つける方法
R で外れ値を見つける方法
Python で外れ値を見つける方法
SPSS で外れ値を見つける方法