実生活における外れ値の 5 つの例
外れ値とは、データ セット内の他の値から異常に離れたデータ ポイントです。
多くの場合、データ ポイントがデータ セットの第 3 四分位より上の四分位範囲の 1.5 倍、または第 1 四分位より下の四分位範囲の 1.5 倍である場合、そのデータ ポイントを外れ値として定義します。
注: 四分位範囲は、データセットの第 3 四分位数 (75 パーセンタイル) と最初の四分位数 (25 パーセンタイル) の差です。
次のシナリオは、現実の状況における外れ値の例を示しています。
例 1: 収入の外れ値
外れ値が頻繁に現れる具体的なシナリオは、所得分配です。
たとえば、特定の国の年収の 25 パーセンタイル (Q1) が年間 15,000 ドルで、75 パーセンタイル (Q3) が年間 120,000 ドルである可能性があります。
四分位範囲 (IQR) は次のように計算されます: $120,000 – $15,000 = $105,000。
これは、収入が次の制限を超えている人は外れ値とみなされます。
- 下限: 第 1 四半期 – 1.5*IQR = $15,000 – 1.5*$105,000 = -$142,500
- 上限: 第 3 四半期 + 1.5*IQR = $120,000 + 1.5*$105,000 = $277,500
純資産が数兆ドルに達するイーロン・マスクのような人物は、年収の観点からは異常値とみなされるだろう。
注: 下限を超える外れ値の値は必ずしも意味があるわけではありません。たとえば、マイナスの年収を得ることができるわけではありません。
例 2: 無呼吸の外れ値
外れ値が頻繁に現れるもう 1 つの現実世界のシナリオは、無呼吸です。
たとえば、個人が息を止められる時間の 25 パーセンタイル (Q1) は約 15 秒ですが、75 パーセンタイル (Q3) は約 75 秒です。
四分位範囲 (IQR) は次のように計算されます: 75 – 15 = 60。
これは、以下の制限を超えて息を止めることができる人は異常値とみなされることを意味します。
- 下限値: Q1 – 1.5*IQR = 15 – 1.5*60 = -75 秒
- 上限:Q3 + 1.5*IQR = 75 + 1.5*60 = 165秒
10 分以上息を止めることができるすべてのフリーダイバーは、165 秒よりもはるかに長く息を止めることができるため、異常値とみなされます。
例 3: 動物サイズの外れ値
外れ値が頻繁に現れるもう 1 つの現実世界のシナリオは、動物のサイズです。
たとえば、馬の身長の 25 パーセンタイル (Q1) は約 5 フィート、75 パーセンタイル (Q3) は約 5.5 フィートです。
四分位範囲 (IQR) は次のように計算されます: 5.5 – 5 = 0.5 フィート。
これは、サイズが以下の制限外にある馬は外れ値とみなされることを意味します。
- 下限: Q1 – 1.5*IQR = 5 – 1.5*0.5 = 4.25 フィート
- 上限: Q3 + 1.5*IQR = 5 + 1.5*0.5 = 5.75 フィート
ギネス世界記録によると、史上最も背の高い馬の記録は 7 フィート強です。これは上限の5.75フィートを上回っているため、この馬は明らかに異常値とみなされるだろう。
例 4: 映画チケットの販売における異常値
異常値が頻繁に現れるもう 1 つの現実世界のシナリオは、映画のチケット販売です。
たとえば、映画チケットの総売上高の 25 パーセンタイル (Q1) は約 200 万ドル、75 パーセンタイル (Q3) は約 1,500 万ドルです。
四分位範囲 (IQR) は次のように計算されます: 1,500 万ドル – 200 万ドル = 1,300 万ドル。
これは、総売上高が次の制限を外れる映画は外れ値とみなされます。
- 下限: T1 – 1.5*IQR = 200 万ドル – 1.5*1,300 万ドル = -1,750 万ドル
- 上限: T3 + 1.5*IQR = 1,500 万ドル + 1.5*1,300 万ドル = 3,450 万ドル
ほとんどのスター・ウォーズ映画の興行収入は3,450万ドルをはるかに超えており、チケットの売り上げという点では異常値となっている。
例 5: 試合ごとの得点の異常値
外れ値が頻繁に現れるもう 1 つの現実世界の分野は、プロ スポーツです。
たとえば、NBA プレーヤーが獲得したポイントの 25 パーセンタイル (Q1) は 1 試合あたり約 5 ポイント、75 パーセンタイル (Q3) は 1 試合あたり約 15 ポイントです。
四分位範囲 (IQR) は次のように計算されます: 15 – 5 = 10 ポイント。
これは、平均が次の制限の外にあるプレイヤーは外れ値とみなされることを意味します。
- 下限値:Q1 – 1.5*IQR = 5 – 1.5*10 = -10 ポイント
- 上限:Q3 + 1.5*IQR = 15 + 1.5*10 = 30 点
多くの NBA シーズンでは、最高得点選手は通常、1 試合あたり 30 得点をわずかに超える得点を記録しており、彼は異常値です。
追加リソース
次のチュートリアルでは、さまざまな統計ソフトウェアを使用してデータ セット内の外れ値を見つける方法について説明します。
Excel で外れ値を見つける方法
R で外れ値を見つける方法
Python で外れ値を見つける方法
SPSS で外れ値を見つける方法