«Зняття тенденції» з даних часових рядів означає видалення основної тенденції в даних. Основна причина, чому ми хочемо це зробити, полягає в тому, щоб легше візуалізувати базові тенденції в даних, які є сезонними або циклічними. Наприклад, розглянемо такі дані часового ряду, які...
Ми можемо використати такий синтаксис, щоб побудувати лінію групової регресії за допомогою пакета візуалізації R ggplot2 : ggplot(df, aes (x = x_variable, y = y_variable, color = group_variable)) + geom_point() + geom_smooth(method = " lm ", fill = NA ) Цей...
Одне з основних припущень лінійної регресії полягає в тому, що між послідовними залишками немає кореляції. Іншими словами, ми припускаємо, що залишки незалежні. Якщо це припущення порушується, стандартні помилки коефіцієнтів у регресійній моделі, ймовірно, будуть недооцінені, що означає, що змінні-прогностики з більшою...
У статистиці кластерна дисперсія просто відноситься до середнього значення двох або більше кластерних дисперсій. Ми використовуємо слово «об’єднаний», щоб вказати, що ми «об’єднуємо» дві або більше групових дисперсій для отримання єдиного числа для спільної дисперсії між групами. На практиці об’єднану дисперсію...
Winsorizing даних означає встановлення крайніх викидів, що дорівнюють заданому процентилю даних. Наприклад, 90% winsorization встановлює всі спостереження вище 95-го процентиля рівними значенню 95-го процентиля, а всі спостереження нижче 5-го процентиля дорівнює значенню 5-го процентиля. Дійсно, виграш даних означає зміну екстремальних значень...
Winsorizing даних означає встановлення крайніх викидів, що дорівнюють заданому процентилю даних. Наприклад, 90% winsorization встановлює всі спостереження вище 95-го процентиля рівними значенню 95-го процентиля, а всі спостереження нижче 5-го процентиля дорівнює значенню 5-го процентиля. Цей підручник містить покроковий приклад того, як...
Точкова діаграма з накопиченням — це тип діаграми, який відображає частоти за допомогою точок. Є два методи, які можна використати для створення точкової діаграми в R: Спосіб 1: функція stripchart() у базовому R. Спосіб 2: функція geom_dotplot() у ggplot2. У цьому...
Центрування набору даних означає віднімання середнього значення кожного окремого спостереження в наборі даних. Наприклад, припустимо, що ми маємо такий набір даних: Виявляється, що середнє значення дорівнює 14. Отже, щоб центрувати цей набір даних, ми б відняли 14 від кожного окремого спостереження:...
Ми можемо використовувати такий синтаксис, щоб додати певні рядки кадру даних у R: with (df, sum (column_1[column_2 == ' some value '])) Цей синтаксис знаходить суму рядків у стовпці 1, у якому стовпець 2 дорівнює значенню, де кадр даних називається df...
Функцію ifelse() у базовому R можна використовувати для написання швидких операторів if-else. Ця функція використовує такий синтаксис: ifelse (тест, так, ні) золото: тест: логічний тест yes: значення, яке повертається, якщо перевірка логіки має значення True no: значення, яке повертається, якщо логічний...