Рубрика: Гид

Xgboost в r: пошаговый пример

Повышение — это метод машинного обучения, который, как было показано, позволяет создавать модели с высокой точностью прогнозирования. Одним из наиболее распространенных способов реализации повышения на практике является использование XGBoost , сокращенно от «экстремального повышения градиента». В этом руководстве представлен пошаговый пример...

Среднее значение выборки и среднее значение генеральной совокупности: в чем разница?

Часто в статистике мы хотим ответить на такие вопросы, как: Каков средний доход семьи в определенном городе? Каков средний вес черепах определенного вида? Какова средняя посещаемость футбольных матчей колледжа? В каждом сценарии мы хотим ответить на вопрос о совокупности , которая...

Как вручную рассчитать коэффициент корреляции пирсона

Коэффициент корреляции Пирсона измеряет линейную связь между двумя переменными. Он всегда принимает значение от -1 до 1, где: -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными. 0 указывает на отсутствие линейной корреляции между двумя переменными. 1 указывает на совершенно...

Как нормализовать данные от 0 до 100

Чтобы нормализовать значения в наборе данных от 0 до 100, вы можете использовать следующую формулу: z i = (x i – min(x)) / (max(x) – min(x)) * 100 Золото: z i : i-е нормализованное значение в наборе данных x i :...

Что такое наблюдение в статистике?

В статистике наблюдение — это просто возникновение того, что вы измеряете. Например, предположим, что вы измеряете вес черепах определенного вида. Каждая черепаха, для которой вы собираете вес, считается одним наблюдением. Следующий набор данных содержит вес 15 различных черепах, поэтому всего имеется...

Анализ главных компонентов в r: пошаговый пример

Анализ главных компонентов, часто сокращенно PCA, представляет собой метод машинного обучения без учителя , целью которого является поиск главных компонентов – линейных комбинаций исходных предикторов – которые объясняют большую часть изменений в наборе данных. Цель PCA — объяснить большую часть изменчивости...

Как выполнить коррекцию бонферрони в r

Однофакторный дисперсионный анализ используется для определения наличия или отсутствия статистически значимой разницы между средними значениями трех или более независимых групп. Если общее значение p таблицы ANOVA ниже определенного уровня значимости, то у нас есть достаточно доказательств, чтобы сказать, что по крайней...

Как выполнить тест шеффе в r

Однофакторный дисперсионный анализ используется для определения наличия или отсутствия статистически значимой разницы между средними значениями трех или более независимых групп. Если общее значение p таблицы ANOVA ниже определенного уровня значимости, то у нас есть достаточно доказательств, чтобы сказать, что по крайней...

Как добавить массив numpy в dataframe pandas

Иногда вам может потребоваться добавить массив NumPy в качестве нового столбца в DataFrame pandas. К счастью, вы можете легко сделать это, используя следующий синтаксис: df[' new_column '] = array_name. tolist () В этом руководстве показаны некоторые примеры практического использования этого синтаксиса....

Кластеризация k-средних в r: пошаговый пример

Кластеризация — это метод машинного обучения, который пытается найти группы наблюдений в наборе данных. Цель состоит в том, чтобы найти кластеры, в которых наблюдения внутри каждого кластера очень похожи друг на друга, а наблюдения в разных кластерах сильно отличаются друг от...