非典型的な値(異常値)

この記事では、外れ値とは何か、およびその計算方法について説明します。さらに、オンライン計算機を使用して、任意のデータ サンプルの外れ値を計算できます。

外れ値とは何ですか?

統計において、外れ値は外れ値または異常値とも呼ばれ、データセットの残りの部分と大きく異なる値です。言い換えれば、外れ値とは、サンプル内の残りの値と極端に異なる異常な値です。

統計的尺度の計算に大きな影響を与える可能性があるため、サンプル内の外れ値を特定することが重要です。

たとえば、データ系列 [1、3、5、2、79、4、8、6] がある場合、数値 79 は明らかに外れ値です。その値が他のデータよりも非常に高いためです。この場合、外れ値を含む平均は 13.5 ですが、外れ値を除いた平均は 4.14 になります。ご覧のとおり、単一の外れ値がすでに統計測定の結果に大きな影響を与えています。

 1, \ 3, \ 5, \ 2, \ 79, \ 4, \ 8, \ 6 \quad \color{orange}\bm{\longrightarrow}\color{black}\quad \text{Valor at\'ipico: } 79

通常、外れ値は残りのデータから分離されているため、散布図では簡単に区別できます。次の散布図を見てください。外れ値は残りの値から大きく離れています。

外れ値またはその他の散布図

👉以下の計算ツールを使用して、任意のデータセットの外れ値を見つけることができます。

外れ値の計算方法

データサンプルから外れ値を計算するには、次の手順に従う必要があります。

  1. データセットの四分位数を計算します。
  2. データの四分位範囲を計算します。
  3. 非典型的な値 (異常値) は、次の条件のいずれかを満たす値とみなされます。

次の箱ひげ図では、この基準に従った 2 つの外れ値がグラフで表されています。

箱ひげ図の外れ値

注:データが外れ値とみなされる制限を決定するには、いくつかの基準があることに注意してください。この記事では、最もよく使用されている Tukey テスト基準を参考として取り上げました。

外れ値の例

外れ値の定義を考慮して、このセクションでは、データ系列内の外れ値を特定する方法の実践的な例を見ていきます。

  • 次の統計データ セットから外れ値または異常値を計算します。

まず、データセットの 3 つの四分位数を計算します。

Q_1=4,06

Q_2=4,38

Q_3=4,66

3 つの四分位が見つかったら、四分位 3 から四分位 1 を減算して四分位間の範囲を見つけます。

IQR=Q_3-Q_1=4,66-4,06=0,6

次に、外れ値によって設定された制限を計算します。これを行うには、上のセクションで説明した式を使用します。

Q_1-1,5\cdot IQR=4,06-1,5\cdot 0,6=3,16

Q_3+1,5\cdot IQR=4,66+1,5\cdot 0,6=5,56

したがって、いずれかの値が 3.16 未満の場合、それは外れ値です。同様に、値が 5.56 より大きい場合も外れ値になります。

結論として、この場合、3.02 は 3.16 より小さく、5.71 は 5.56 より大きいため、2 つの極値が存在します。

\text{Valores at\'ipicos} =\Bigl\{3,02 \ ; \ 5,71\Bigr\}

外れ値計算機

統計データ セットを次の計算機に入力して、異常値がある場合はそれを計算します。データはスペースで区切られ、小数点としてピリオドを使用して入力する必要があります。

外れ値の原因

外れ値の原因はいくつか考えられますが、最も一般的なものは次のとおりです。

  • 測定に使用した装置が故障または事故に見舞われた場合。
  • 測定部品に異常原因による欠陥があった。
  • データの送信または転記でエラーが発生しました。
  • 人的ミスがあったのです。予防策を講じたとしても、人的エラーは完全に避けられないわけではないため、異常な値が依然として存在する可能性があります。

これらは最も一般的な原因ですが、明らかに理由は何でも考えられます。同様に、多数の観測値を使用して統計的研究を実行する場合、いくつかの外れ値が現れるのは通常のことであることを考慮する必要があります。

外れ値をどうするか

外れ値に遭遇したときの一般的な質問は、それをどうすればよいかということです。外れ値はサンプルから削除する必要がありますか?

外れ値はセットの残りの部分と似ていないデータであるため、常に削除する必要があると考えられています。ただし、外れ値がいくつかの統計的測定の結果に大きな影響を与えるとしても、それは常に排除されるべきであるという意味ではありません。

一般に、異常値の除去は、異常の原因が真に正当であることがわかっている場合にのみ行うべきであり、したがって、これらの異常値は調査対象と一致しない観察結果である。

極端な値は統計指標に大きな影響を与えるため、これはサンプルサイズが小さい場合に特に重要です。

例えば、品質管理を行うために製品の一部の長さを測定する場合、論理的には、別の種類の製品が突然登場して同じ部分を測定すると、測定値は以前のものとは大きく異なり、おそらく長さは測定されなくなります。外れ値になる。この場合、外れ値は原因がわかっており、測定データが分析対象の母集団の一部ではないことがわかっているため、除外できます。

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です