Як обчислити середню квадратичну помилку (rmse) в excel


У статистиці регресійний аналіз — це техніка, яку ми використовуємо для розуміння зв’язку між змінною предиктора x і змінною відповіді y.

Коли ми виконуємо регресійний аналіз, ми отримуємо модель, яка повідомляє нам прогнозоване значення змінної відповіді на основі значення змінної предиктора.

Один із способів оцінити, наскільки добре наша модель відповідає даному набору даних, — обчислити середню квадратичну помилку , яка є показником, який повідомляє нам, наскільки наші прогнозовані значення в середньому далекі від спостережуваних значень.

Формула для визначення середньої квадратичної помилки, більш відомої як RMSE , є:

RMSE = √[ Σ(P i – O i ) 2 / n ]

золото:

  • Σ – химерний символ, який означає «сума»
  • P i – прогнозоване значення для i-го спостереження в наборі даних
  • O i — спостережене значення для i-го спостереження в наборі даних
  • n – розмір вибірки

Технічні примітки :

  • Середню квадратичну похибку можна обчислити для будь-якого типу моделі, яка виробляє прогнозовані значення, які потім можна порівняти зі спостережуваними значеннями набору даних.
  • Середньоквадратичну похибку також іноді називають середнім квадратичним відхиленням, яке часто називають RMSD.

Далі розглянемо приклад того, як обчислити середню квадратичну помилку в Excel.

Як обчислити середню квадратичну помилку в Excel

В Excel немає вбудованої функції для обчислення RMSE, але ми можемо досить легко обчислити це за допомогою однієї формули. Ми покажемо, як розрахувати RMSE для двох різних сценаріїв.

Сценарій 1

У сценарії ви можете мати один стовпець, що містить прогнозовані значення з вашої моделі, і інший стовпець, що містить спостережувані значення. На зображенні нижче показано приклад цього сценарію:

Приклад розрахунку RMSE в Excel для спостережуваних і прогнозованих значень

Якщо так, ви можете обчислити RMSE, ввівши таку формулу в будь-яку комірку та натиснувши CTRL+SHIFT+ENTER:

=SQRT(SUMSQ(A2:A21-B2:B21) / КІЛЬКІСТЬ(A2:A21))

Приклад обчислення середньої квадратичної помилки в Excel

Це говорить нам, що середня квадратична помилка становить 2,6646 .

Розрахунок RMSE в Excel

Формула може здатися трохи складною, але вона має сенс, коли ви її розберете:

= SQRT( SUMSQ(A2:A21-B2:B21) / КІЛЬКІСТЬ(A2:A21) )

  • Спочатку ми обчислюємо суму квадратів різниць між прогнозованими та спостережуваними значеннями за допомогою функції SUMSQ() .
  • Далі ми ділимо на розмір вибірки набору даних за допомогою функції COUNTA() , яка підраховує кількість клітинок у діапазоні, які не є порожніми.
  • Нарешті, ми беремо квадратний корінь із усього обчислення за допомогою функції SQRT() .

Сценарій 2

В іншому випадку ви, можливо, вже обчислили різницю між прогнозованими та спостережуваними значеннями. У цьому випадку у вас буде лише одна колонка, яка показуватиме відмінності.

На зображенні нижче показано приклад цього сценарію. Прогнозовані значення показані в стовпці A, спостережувані значення в стовпці B, а різниця між прогнозованими і спостережуваними значеннями в стовпці D:

Приклад середньоквадратичної помилки в Excel

Якщо так, ви можете обчислити RMSE, ввівши таку формулу в будь-яку комірку та натиснувши CTRL+SHIFT+ENTER:

=SQRT(SUMSQ(D2:D21) / КІЛЬКІСТЬ(D2:D21))

RMSE в Excel

Це говорить нам, що середня квадратична помилка становить 2,6646 , що відповідає результату, отриманому в першому сценарії. Це підтверджує, що ці два підходи до розрахунку RMSE еквівалентні.

Середня квадратична помилка в Excel

Формула, яку ми використовували в цьому сценарії, лише трохи відрізняється від тієї, яку ми використовували в попередньому сценарії:

= SQRT( SUMSQ(D2:D21) / COUNT(D2:D21) )

  • Оскільки ми вже розрахували різницю між прогнозованими та спостережуваними значеннями в стовпці D, ми можемо обчислити суму квадратів різниць за допомогою функції SUMSQ().   функція тільки зі значеннями зі стовпця D.
  • Далі ми ділимо на розмір вибірки набору даних за допомогою функції COUNTA() , яка підраховує кількість клітинок у діапазоні, які не є порожніми.
  • Нарешті, ми беремо квадратний корінь із усього обчислення за допомогою функції SQRT() .

Як інтерпретувати RMSE

Як згадувалося раніше, RMSE є корисним способом побачити, наскільки добре регресійна модель (або будь-яка модель, що виробляє прогнозовані значення) здатна «відповідати» набору даних.

Чим більше RMSE, тим більша різниця між прогнозованими та спостережуваними значеннями, тобто тим гірше модель регресії відповідає даним. Навпаки, чим менший RMSE, тим краще модель може відповідати даним.

Особливо корисним може бути порівняння RMSE двох різних моделей, щоб побачити, яка модель найкраще відповідає даним.

Щоб отримати додаткові посібники з Excel, обов’язково ознайомтеся з нашою сторінкою посібників Excel , на якій перераховано всі посібники Excel зі статистики.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *