Іноді вам може знадобитися видалити стовпець індексу з pandas DataFrame у Python. Оскільки pandas DataFrames і Series завжди мають індекс, ви не можете фактично видалити індекс, але ви можете скинути його за допомогою наступного фрагмента коду: df. reset_index (drop= True ,...
Підвищення — це техніка машинного навчання, яка, як було показано, створює моделі з високою точністю прогнозування. Одним із найпоширеніших способів реалізації посилення на практиці є використання XGBoost , що скорочується від «extreme gradient boosting». Цей підручник надає покроковий приклад того, як...
Часто в статистиці ми хочемо відповісти на такі запитання, як: Який середній дохід домогосподарства в певному місті? Яка середня вага певного виду черепах? Яка середня відвідуваність ігор студентського футболу? У кожному сценарії ми хочемо відповісти на запитання про генеральну сукупність ,...
Коефіцієнт кореляції Пірсона вимірює лінійний зв’язок між двома змінними. Він завжди приймає значення від -1 до 1, де: -1 вказує на абсолютно негативну лінійну кореляцію між двома змінними 0 означає відсутність лінійної кореляції між двома змінними 1 вказує на абсолютно позитивну...
Щоб нормалізувати значення в наборі даних від 0 до 100, ви можете використовувати таку формулу: z i = (x i – min(x)) / (max(x) – min(x)) * 100 золото: z i : i-те нормалізоване значення в наборі даних x i :...
У статистиці спостереження – це просто подія чогось, що ви вимірюєте. Наприклад, припустімо, що ви вимірюєте вагу певного виду черепах. Кожна черепаха, для якої ви збираєте вагу, вважається одним спостереженням. Наступний набір даних містить ваги 15 різних черепах, тож загалом є...
Аналіз головних компонентів, часто скорочено PCA, — це техніка машинного навчання без контролю , яка прагне знайти головні компоненти — лінійні комбінації вихідних предикторів, — які пояснюють значну частину варіації в наборі даних. Мета PCA полягає в тому, щоб пояснити більшість...
Односторонній дисперсійний аналіз використовується, щоб визначити, чи існує статистично значуща різниця між середніми значеннями трьох або більше незалежних груп. Якщо загальне p-значення таблиці ANOVA нижче певного рівня значущості, тоді ми маємо достатньо доказів, щоб стверджувати, що принаймні одне з групових середніх...
Односторонній дисперсійний аналіз використовується, щоб визначити, чи існує статистично значуща різниця між середніми значеннями трьох або більше незалежних груп. Якщо загальне p-значення таблиці ANOVA нижче певного рівня значущості, тоді ми маємо достатньо доказів, щоб стверджувати, що принаймні одне з групових середніх...
Іноді ви можете додати масив NumPy як новий стовпець до pandas DataFrame. На щастя, ви можете легко зробити це за допомогою такого синтаксису: df[' new_column '] = array_name. tolist () Цей підручник показує кілька прикладів практичного використання цього синтаксису. Приклад 1:...