Rmse と r 二乗: どちらの指標を使用する必要がありますか?
回帰モデルは、1 つ以上の予測変数と応答変数の間の関係を定量化するために使用されます。
回帰モデルを適合させるときは常に、モデルがデータにどの程度「適合」するかを理解したいと考えます。言い換えれば、モデルは予測変数の値を使用して応答変数の値を予測できるか?
モデルがデータセットにどの程度適合しているかを定量化するために統計学者がよく使用する 2 つの指標は、二乗平均平方根誤差 (RMSE) と R2 乗 ( R2 ) です。これらは次のように計算されます。
RMSE : 予測値がデータセット内の観測値から平均してどの程度離れているかを示す指標。 RMSE が低いほど、モデルはデータセットに適合します。
次のように計算されます。
RMSE = √ Σ(P i – O i ) 2 / n
金:
- Σは「和」を意味する記号です
- Piはi 番目の観測値の予測値です
- O iはi 番目の観測値の観測値です
- n はサンプルサイズです
R 2 : 回帰モデルの応答変数の分散がどの程度予測変数によって説明できるかを示す指標。この値は 0 と 1 の間です。R 2値が大きいほど、モデルは一連のデータに適合します。
次のように計算されます。
R2 = 1 – (RSS/TSS)
金:
- RSS は残差の二乗和を表します
- TSS は平方和の合計を表します
RMSE とR2 : どちらの指標を使用する必要がありますか?
データセットに対するモデルの適合性を評価する場合、RMSE 値と R 2値の両方を計算すると便利です。各メトリクスから何かが異なるためです。
一方では、RMSE は、回帰モデルによって作成された予測値と真の値の間の一般的な距離を示します。
一方、R 2は、予測変数が応答変数の変動をどの程度説明できるかを示します。
たとえば、特定の都市の住宅に関する情報を表示する次のデータセットがあるとします。
ここで、平方フィート、バスルームの数、寝室の数を使用して家の価格を予測したいとします。
次の回帰モデルを適用できます。
価格 = β 0 + β 1 (平方フィート) + β 2 (バスルームの数) + β 3 (寝室の数)
ここで、このモデルを近似し、モデルの適合度を評価するために次の指標を計算するとします。
- RMSE : 14.342
- R2 : 0.856
RMSE値は、モデルの予測住宅価格と実際の住宅価格の平均差が 14,342 ドルであることを示しています。
R 2値は、モデルの予測変数 (平方フィート、バスルームの数、寝室の数) が住宅価格の変動の 85.6% を説明できることを示しています。
これらの値が「良好」かどうかを判断するには、これらの測定値を代替モデルと比較します。
たとえば、異なる予測変数セットを使用する別の回帰モデルを当てはめ、そのモデルに対して次のメトリクスを計算するとします。
- RMSE : 19.355
- R2 : 0.765
このモデルの RMSE 値は以前のモデルよりも高いことがわかります。また、本モデルのR 2値は前モデルに比べて低くなっていることがわかります。これは、このモデルが前のモデルよりもデータへの適合度が低いことを示しています。
まとめ
この記事で取り上げた主なポイントは次のとおりです。
- RMSE と R 2 は、回帰モデルがデータセットにどの程度適合するかを定量化します。
- RMSE は回帰モデルが応答変数の値を絶対値でどの程度正確に予測できるかを示し、R 2はモデルが応答変数の値をパーセンテージでどの程度正確に予測できるかを示します。
- 各メトリックから有用な情報が得られるため、特定のモデルの RMSE とR2の両方を計算すると便利です。