Одномерный или многомерный анализ: в чем разница?
Термин одномерный анализ относится к анализу одной переменной. Вы можете это запомнить, потому что приставка «уни» означает «один».
Термин многомерный анализ относится к анализу более чем одной переменной. Вы можете это запомнить, потому что приставка «мульти» означает «более одного».
Существует три распространенных способа выполнения одномерного анализа :
1. Сводная статистика
- Мы можем рассчитать меры центральной тенденции , такие как среднее значение или медиана для переменной.
- Мы также можем рассчитать меры дисперсии, такие как стандартное отклонение переменной.
2. Частотные распределения
- Мы можем создать распределение частот , которое описывает, как часто появляется каждое значение переменной.
3. Графика
- Мы можем создавать такие графики, как коробчатые диаграммы, гистограммы, графики плотности и т. д. визуализировать распределение значений переменной.
Существует два распространенных способа выполнения многомерного анализа :
1. Матрица диаграммы рассеяния
- Мы можем создать матрицу диаграммы рассеяния, которая позволяет нам визуализировать взаимосвязь между каждой парной комбинацией переменных в наборе данных.
2. Алгоритмы машинного обучения
- Мы можем использовать алгоритм обучения с учителем, чтобы соответствовать такой модели, как множественная линейная регрессия , которая количественно определяет взаимосвязь между несколькими переменными-предикторами и переменной ответа.
- Мы также можем использовать алгоритм обучения без учителя, такой как анализ главных компонентов, чтобы одновременно найти структуру и взаимосвязи между несколькими переменными в наборе данных.
В следующих примерах показано, как выполнить одномерный и многомерный анализ со следующим набором данных:
Примечание . Когда вы анализируете ровно две переменные, это называетсядвумерным анализом .
Пример: как выполнить одномерный анализ
Мы могли бы выбрать проведение одномерного анализа для любой отдельной переменной в наборе данных.
Например, мы можем выполнить одномерный анализ переменной «Размер домохозяйства» :
Мы можем рассчитать следующие показатели центральной тенденции размера домохозяйства:
- Средний (среднее значение): 3,8
- Медиана (среднее значение): 4
Эти ценности дают нам представление о том, в чем заключается «центральная» ценность.
Мы также можем рассчитать следующие меры дисперсии:
- Диапазон (разница между максимумом и минимумом): 6
- Интерквартильная шкала (распределение средних 50% значений): 2,5
- Стандартное отклонение (средняя мера разброса): 1,87.
Эти значения дают нам представление о распределении значений этой переменной.
Мы также можем создать следующую таблицу распределения частот, чтобы суммировать, как часто встречаются разные значения:
Мы также можем создать коробчатую диаграмму, чтобы визуализировать распределение значений в зависимости от размера домохозяйства:
В качестве альтернативы мы могли бы создать гистограмму для визуализации распределения значений:
Рассчитав эти измерения и создав эти графики, мы сможем лучше понять, как распределяются значения переменной «Размер домохозяйства».
Пример: Как выполнить многомерный анализ
Предположим еще раз, что у нас тот же набор данных:
Простая форма многомерного анализа, которую мы могли бы выполнить с этим набором данных, — это создание матрицы диаграммы рассеяния , которая представляет собой матрицу, показывающую диаграмму рассеяния для каждой парной комбинации числовых переменных в наборе данных.
Мы могли бы создать матрицу такого типа, чтобы одновременно визуализировать взаимосвязь между размером домохозяйства, годовым доходом и количеством домашних животных.
Ресурс : ознакомьтесь с этим руководством , чтобы узнать, как создать матрицу диаграммы рассеяния в R.
Другой способ выполнить многомерный анализ этого набора данных — использовать модель множественной линейной регрессии . Например, мы могли бы создать регрессионную модель, которая использует размер домохозяйства и количество домашних животных для прогнозирования годового дохода.
Ресурс : ознакомьтесь с этим руководством , чтобы узнать, как выполнить множественную линейную регрессию в R.
Другой способ выполнить многомерный анализ этого набора данных — выполнить анализ главных компонентов , который позволяет нам найти основную структуру в наборе данных.
Ресурс : ознакомьтесь с этим руководством , чтобы узнать, как выполнить анализ главных компонентов в R.
Заключение
Вот краткое содержание этой статьи:
- Одномерный анализ – это анализ одной переменной.
- Многомерный анализ – это анализ более чем одной переменной.
- Существуют разные способы выполнения каждого типа анализа в зависимости от вашей конечной цели.
- В реальном мире мы часто выполняем оба типа анализа на одном наборе данных.
- Одномерный анализ позволяет нам понять распределение значений переменной, а многомерный анализ позволяет нам понять взаимосвязь между несколькими переменными.