機械学習における分類エラー率: 定義と例
機械学習において、誤分類率は、分類モデルによって誤って予測された観測値の割合を示す指標です。
次のように計算されます。
誤分類率 = 誤った予測の数 / 予測の合計数
誤分類率の値は 0 から 1 まで変化します。ここで、
- 0 は、不正確な予測がなかったモデルを表します。
- 1 は、予測が完全に間違っていたモデルを表します。
誤分類率の値が低いほど、分類モデルは応答変数の結果をより適切に予測できます。
次の例は、実際にロジスティック回帰モデルの分類誤り率を計算する方法を示しています。
例: ロジスティック回帰モデルの分類誤り率の計算
ロジスティック回帰モデルを使用して、400 人のさまざまな大学バスケットボール選手が NBA にドラフトされるかどうかを予測するとします。
次の混同行列は、モデルによって行われた予測を要約したものです。
モデルの分類エラー率を計算する方法は次のとおりです。
- 誤分類率 = 誤った予測の数 / 予測の合計数
- 分類誤り率 = (偽陽性 + 偽陰性) / (予測の合計)
- 誤分類率 = (70 + 40) / (400)
- 誤分類率 = 0.275
このモデルの分類エラー率は 0.275 または27.5%です。
これは、モデルが27.5%のプレイヤーの結果を誤って予測したことを意味します。
分類エラー率の反対は精度であり、次のように計算されます。
- 精度 = 1 – 分類エラー率
- 精度 = 1 – 0.275
- 精度 = 0.725
これは、モデルが72.5%のプレイヤーの結果を正しく予測したことを意味します。
誤分類率の長所と短所
誤分類率には次の利点があります。
- 解釈するのは簡単です。分類エラー率 10% は、モデルが観測値全体の 10% に対して誤った予測を行ったことを意味します。
- 計算するのは簡単です。誤分類率は、誤った予測の総数を予測の総数で割ったものとして計算されます。
ただし、分類エラー率には次のような欠点があります。
- これには、データがどのように分散されるかは考慮されていません。たとえば、全選手の 90% が NBA にドラフト指名されなかったと仮定します。すべての選手がドラフト外になることを単純に予測するモデルがある場合、そのモデルの分類誤差率はわずか 10% になります。これは低いように見えますが、実際にはこのモデルはドラフトされる選手を正確に予測できません。
実際には、次のような他の指標を使用してモデルの分類誤り率を計算することがよくあります。
- 感度: 「真陽性率」 – モデルが検出できる陽性結果の割合。
- 特異性: 「真陰性率」 – モデルが検出できる陰性結果の割合。
- F1 スコア: データの分散方法と比較して、モデルがどの程度正確であるかを示す指標。
これらの各メトリクスの値を計算することで、モデルがどの程度正確に予測できるかを完全に理解できます。
追加リソース
次のチュートリアルでは、一般的な機械学習の概念に関する追加情報を提供します。