Коли зв’язок між набором змінних предикторів і змінною відповіді дуже складний, ми часто використовуємо нелінійні методи для моделювання зв’язку між ними. Одним із таких методів є дерева класифікації та регресії (часто скорочено CART), які використовують набір змінних предикторів для створення дерев...
Коли зв’язок між набором змінних предиктора та змінною відповіді дуже складний, ми часто використовуємо нелінійні методи для моделювання зв’язку між ними. Одним із таких методів є побудова дерева рішень . Однак недоліком використання єдиного дерева рішень є те, що воно часто...
Вибірковий розподіл — це розподіл імовірностей певної статистики на основі багатьох випадкових вибірок з однієї сукупності . У цьому підручнику пояснюється, як виконати такі дії за допомогою розподілів вибірки в Excel: Створіть розподіл вибірки. Візуалізуйте розподіл вибірки. Обчисліть середнє значення та...
Часто вам може знадобитися вибрати випадкову вибірку з набору даних у Excel. На щастя, це легко зробити за допомогою функції RAND() , яка генерує випадкове число від 0 до 1. Цей підручник містить покроковий приклад того, як використовувати цю функцію для...
Масштабована діаграма розташування — це тип діаграми, який відображає підібрані значення регресійної моделі вздовж осі х і квадратний корінь із стандартизованих залишків уздовж осі у. Дивлячись на цей графік, ми перевіряємо дві речі: 1. Переконайтеся, що червона лінія розташована приблизно горизонтально...
Довірчий інтервал – це діапазон значень, який, ймовірно, містить параметр сукупності з певним рівнем довіри. Розраховується за такою загальною формулою: Довірчий інтервал = (точкова оцінка) +/- (критичне значення)* (стандартна помилка) Ця формула створює інтервал із нижньою межею та верхньою межею, який,...
R – одна з найпопулярніших мов програмування для роботи з даними. Але перш ніж ми зможемо працювати з даними, нам потрібно фактично імпортувати їх у R! Якщо ваші дані вже містяться у файлі CSV або Excel, виконайте дії, наведені в цих...
Нормальний розподіл є найбільш часто використовуваним розподілом у всій статистиці та відомий як симетричний і дзвоноподібний. Тісно пов’язаним розподілом є t-розподіл , який також є симетричним і дзвоноподібним, але має важчі «хвости», ніж звичайний розподіл. Іншими словами, більше значень у розподілі...
Більшість керованих алгоритмів машинного навчання засновані на використанні єдиної прогностичної моделі, наприклад лінійної регресії , логістичної регресії , хребтової регресії тощо. Однак такі методи, як пакетування та випадкові ліси, створюють багато різних моделей на основі повторюваних початкових зразків вихідного набору даних....
Часто в статистиці ми хочемо зібрати дані, щоб ми могли відповісти на певні запитання дослідження. Наприклад, ми можемо захотіти відповісти на такі запитання: 1. Який середній дохід домогосподарства в Маямі, Флорида? 2. Яка середня вага певної популяції черепах? 3. Який відсоток...