適切な rmse 値はどれくらいと考えられますか?
回帰モデルがデータセットにどの程度適合しているかを評価する 1 つの方法は、モデルの予測値とデータセットの実際の値の間の平均距離を示す平均二乗誤差を計算することです。データ。
平均二乗誤差を求める公式 ( RMSEと略されることがよくあります) は次のとおりです。
RMSE = √ Σ(P i – O i ) 2 / n
金:
- Σは「和」を意味する派手な記号です
- Piは、データセット内のi 番目の観測値の予測値です。
- O iは、データセット内のi 番目の観測値の観測値です。
- n はサンプルサイズです
よく聞かれる質問は、「適切な RMSE 値とは何ですか?」というものです。
簡単に言うと、それは状況次第です。
RMSE が低いほど、特定のモデルはデータセットに「適合」できます。ただし、作業しているデータセットの範囲は、特定の RMSE 値が「低い」かどうかを判断する上で重要です。
たとえば、次のシナリオを考えてみましょう。
シナリオ 1:回帰モデルを使用して、特定の都市の住宅価格を予測したいと考えています。モデルの RMSE 値が 500 ドルであると仮定します。一般的な住宅価格の範囲は 70,000 ドルから 300,000 ドルであるため、この RMSE 値は非常に低くなります。これは、モデルが不動産価格を正確に予測できることを示しています。
シナリオ 2:ここで、回帰モデルを使用して、ある人が特定の都市で 1 か月にいくら使うかを予測したいとします。モデルの RMSE 値が 500 ドルであると仮定します。一般的な月々の支出範囲が 1,500 ドルから 4,000 ドルの場合、この RMSE 値は非常に高くなります。これは、このモデルでは毎月の支出をあまり正確に予測できないことがわかります。
これらの単純な例は、普遍的な「適切な」RMSE 値が存在しないことを示しています。それはすべて、作業しているデータセットの値の範囲によって異なります。
RMSE値の正規化
特定の RMSE 値が「良好」であるかどうかをよりよく理解する 1 つの方法は、次の式を使用して正規化することです。
正規化RMSE = RMSE / (最大値 – 最小値)
これにより 0 と 1 の間の値が生成され、0 に近い値ほど適合モデルが良好であることを表します。
たとえば、RMSE 値が 500 ドルで、値の範囲が 70,000 ドルから 300,000 ドルだとします。正規化された RMSE 値は次のように計算されます。
- 正規化された RMSE = 500 ドル / (300,000 ドル – 70,000 ドル) = 0.002
逆に、RMSE 値が $500 で、値の範囲が $1,500 ~ $4,000 であると仮定します。正規化された RMSE 値は次のように計算されます。
- 正規化された RMSE = $500 / ($4,000 – $1,500) = 0.2 。
最初の正規化された RMSE 値ははるかに低く、2 番目の正規化された RMSE 値と比較してデータへの適合性がはるかに優れていることを示しています。
機種間のRMSEの比較
「適切な」RMSE 値を表す任意の数値を選択する代わりに、複数のモデルの RMSE 値を単純に比較できます。
たとえば、不動産価格を予測するために 3 つの異なる回帰モデルを当てはめるとします。 3 つのモデルの RMSE 値が次のとおりであると仮定します。
- モデル 1 RMSE: 550 ドル
- モデル 2 RMSE: 480 ドル
- モデル 3 RMSE: 1,400 ドル
モデル 2 の RMSE 値が最も低いため、予測価格と実際の価格の間の平均距離がこのモデルで最も低いため、モデル 2 を不動産価格を予測する最適なモデルとして選択します。
追加リソース
RMSEの解釈方法
Excel で RMSE を計算する方法
R で RMSE を計算する方法
Python で RMSE を計算する方法
RMSE計算機