Біноміальний розподіл — це розподіл ймовірностей, який використовується для моделювання ймовірності певної кількості «успіхів», що відбуваються протягом фіксованої кількості випробувань. Біноміальний розподіл доцільно використовувати, якщо виконуються наступні три припущення: Припущення 1: Кожне випробування має лише два можливі результати. Ми припускаємо, що...
Точковий графік — це тип графіка, який відображає частоти значень у наборі даних за допомогою суміщених точок. Часто, коли ми створюємо точкову діаграму, ми хочемо кількісно визначити центр і розподіл: Центр : центральна точка набору даних. Ми часто використовуємо медіану, щоб...
Гістограма – це тип діаграми, який дозволяє візуалізувати розподіл значень у наборі даних. На осі X відображаються значення набору даних, а на осі Y – частота кожного значення. Залежно від значень у наборі даних гістограма може приймати багато різних форм. Наведені...
Викид — це спостереження, яке аномально віддалено від інших значень у наборі даних. Ми часто визначаємо спостереження як викид, якщо воно в 1,5 рази перевищує інтерквартильний діапазон вище третього квартиля або в 1,5 рази перевищує інтерквартильний діапазон нижче першого квартиля. Примітка....
Довірчий інтервал – це діапазон значень, який, ймовірно, містить параметр сукупності з певним рівнем довіри. Коли ми повідомляємо довірчі інтервали, ми завжди використовуємо такий формат: 95% ДІ [LL, UL] золото LL : нижня межа довірчого інтервалу UL : Верхня межа довірчого...
Попередження, яке ви можете зустріти в R: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Це попередження з’являється, коли ви підбираєте модель логістичної регресії, а прогнозовані ймовірності одного або кількох спостережень у вашій базі даних не можна відрізнити від...
Часто в статистиці та машинному навчанні ми нормалізуємо змінні таким чином, щоб діапазон значень був між 0 і 1. Найпоширенішою причиною для нормалізації змінних є коли ми виконуємо певний тип багатофакторного аналізу (тобто ми хочемо зрозуміти зв’язок між декількома змінними предикторами...
Дисперсійний аналіз («дисперсійний аналіз») використовується для визначення того, чи рівні середні значення трьох або більше незалежних груп. ANOVA використовує такі нульові та альтернативні гіпотези: H 0 : Усі групові середні рівні. H A : Принаймні одне групове середнє значення відрізняється від...
Манхеттенська відстань між двома векторами, A і B , обчислюється таким чином: Σ|A i – B i | де i – i -й елемент кожного вектора. Ця відстань використовується для вимірювання несхожості між двома векторами та зазвичай використовується в багатьох алгоритмах...
Об’єднане стандартне відхилення – це просто зважене середнє значення стандартних відхилень двох або більше незалежних груп. У статистиці він найчастіше з’являється у двовибірковому t-критерії , який використовується для перевірки того, чи рівні середні значення двох сукупностей. Формула для обчислення кластерного стандартного...