Когда взаимосвязь между набором переменных-предикторов и переменной отклика очень сложна, мы часто используем нелинейные методы для моделирования взаимосвязи между ними. Одним из таких методов является построение дерева решений . Однако недостатком использования единого дерева решений является то, что оно склонно к...
Выборочное распределение — это распределение вероятностей определенной статистики , основанное на множестве случайных выборок из одной совокупности . В этом руководстве объясняется, как выполнить следующие действия с выборочными распределениями в Excel: Создайте выборочное распределение. Визуализируйте распределение выборки. Рассчитайте среднее и стандартное...
Часто вам может потребоваться выбрать случайную выборку из набора данных в Excel. К счастью, это легко сделать с помощью функции СЛЧИС() , которая генерирует случайное число от 0 до 1. В этом руководстве представлен пошаговый пример использования этой функции для выбора...
Масштабированная диаграмма местоположения — это тип диаграммы, которая отображает подобранные значения модели регрессии по оси X и квадратный корень из стандартизированных остатков по оси Y. Глядя на этот график, мы проверяем две вещи: 1. Убедитесь, что красная линия на графике примерно...
Доверительный интервал — это диапазон значений, который может содержать параметр совокупности с определенным уровнем достоверности. Он рассчитывается по следующей общей формуле: Доверительный интервал = (точечная оценка) +/- (критическое значение)* (стандартная ошибка) Эта формула создает интервал с нижней и верхней границей, который,...
R — один из самых популярных языков программирования для работы с данными. Но прежде чем мы сможем работать с данными, нам нужно импортировать их в R! Если ваши данные уже находятся в файле CSV или Excel, вы можете выполнить действия, описанные...
Нормальное распределение является наиболее часто используемым распределением во всей статистике и, как известно, является симметричным и колоколообразным. Близкородственным распределением является распределение t , которое также является симметричным и колоколообразным, но имеет более тяжелые «хвосты», чем нормальное распределение. Другими словами, больше значений...
Большинство алгоритмов контролируемого машинного обучения основаны на использовании одной прогнозирующей модели, такой как линейная регрессия , логистическая регрессия , гребневая регрессия и т. д. Однако такие методы, как пакетирование и случайный лес, создают множество различных моделей на основе повторяющихся выборок исходного...
Часто в статистике мы хотим собрать данные, чтобы ответить на определенные исследовательские вопросы. Например, мы можем захотеть ответить на следующие вопросы: 1. Каков средний доход семьи в Майами, Флорида? 2. Каков средний вес черепах определенной популяции? 3. Какой процент жителей определенного...
Иногда вам может потребоваться удалить столбец индекса из DataFrame pandas в Python. Поскольку DataFrames и Series pandas всегда имеют индекс, вы не можете удалить индекс, но можете сбросить его, используя следующий фрагмент кода: df. reset_index (drop= True , place= True )...