Гид - Statorials

Xgboost в r: пошаговый пример

К бенджамин андерсон 27 июля, 2023 Гид 0 комментариев

Повышение — это метод машинного обучения, который, как было показано, позволяет создавать модели с высокой точностью прогнозирования. Одним из наиболее распространенных способов реализации повышения на практике является использование XGBoost , сокращенно от «экстремального повышения градиента». В этом руководстве представлен пошаговый пример...

[Продолжить чтение...]

Среднее значение выборки и среднее значение генеральной совокупности: в чем разница?

К бенджамин андерсон 27 июля, 2023 Гид 0 комментариев

Часто в статистике мы хотим ответить на такие вопросы, как: Каков средний доход семьи в определенном городе? Каков средний вес черепах определенного вида? Какова средняя посещаемость футбольных матчей колледжа? В каждом сценарии мы хотим ответить на вопрос о совокупности , которая...

[Продолжить чтение...]

Как вручную рассчитать коэффициент корреляции пирсона

К бенджамин андерсон 27 июля, 2023 Гид 0 комментариев

Коэффициент корреляции Пирсона измеряет линейную связь между двумя переменными. Он всегда принимает значение от -1 до 1, где: -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными. 0 указывает на отсутствие линейной корреляции между двумя переменными. 1 указывает на совершенно...

[Продолжить чтение...]

Как нормализовать данные от 0 до 100

К бенджамин андерсон 27 июля, 2023 Гид 0 комментариев

Чтобы нормализовать значения в наборе данных от 0 до 100, вы можете использовать следующую формулу: z i = (x i – min(x)) / (max(x) – min(x)) * 100 Золото: z i : i-е нормализованное значение в наборе данных x i :...

[Продолжить чтение...]

Что такое наблюдение в статистике?

К бенджамин андерсон 27 июля, 2023 Гид 0 комментариев

В статистике наблюдение — это просто возникновение того, что вы измеряете. Например, предположим, что вы измеряете вес черепах определенного вида. Каждая черепаха, для которой вы собираете вес, считается одним наблюдением. Следующий набор данных содержит вес 15 различных черепах, поэтому всего имеется...

[Продолжить чтение...]

Анализ главных компонентов в r: пошаговый пример

К бенджамин андерсон 27 июля, 2023 Гид 0 комментариев

Анализ главных компонентов, часто сокращенно PCA, представляет собой метод машинного обучения без учителя , целью которого является поиск главных компонентов – линейных комбинаций исходных предикторов – которые объясняют большую часть изменений в наборе данных. Цель PCA — объяснить большую часть изменчивости...

[Продолжить чтение...]

Как выполнить коррекцию бонферрони в r

К бенджамин андерсон 27 июля, 2023 Гид 0 комментариев

Однофакторный дисперсионный анализ используется для определения наличия или отсутствия статистически значимой разницы между средними значениями трех или более независимых групп. Если общее значение p таблицы ANOVA ниже определенного уровня значимости, то у нас есть достаточно доказательств, чтобы сказать, что по крайней...

[Продолжить чтение...]

Как выполнить тест шеффе в r

К бенджамин андерсон 27 июля, 2023 Гид 0 комментариев

Однофакторный дисперсионный анализ используется для определения наличия или отсутствия статистически значимой разницы между средними значениями трех или более независимых групп. Если общее значение p таблицы ANOVA ниже определенного уровня значимости, то у нас есть достаточно доказательств, чтобы сказать, что по крайней...

[Продолжить чтение...]

Как добавить массив numpy в dataframe pandas

К бенджамин андерсон 27 июля, 2023 Гид 0 комментариев

Иногда вам может потребоваться добавить массив NumPy в качестве нового столбца в DataFrame pandas. К счастью, вы можете легко сделать это, используя следующий синтаксис: df[' new_column '] = array_name. tolist () В этом руководстве показаны некоторые примеры практического использования этого синтаксиса....

[Продолжить чтение...]

Кластеризация k-средних в r: пошаговый пример

К бенджамин андерсон 27 июля, 2023 Гид 0 комментариев

Кластеризация — это метод машинного обучения, который пытается найти группы наблюдений в наборе данных. Цель состоит в том, чтобы найти кластеры, в которых наблюдения внутри каждого кластера очень похожи друг на друга, а наблюдения в разных кластерах сильно отличаются друг от...

[Продолжить чтение...]

Рубрика: Гид