Что такое многомерные данные? (определение и примеры)
Многомерные данные относятся к набору данных, в котором количество признаков p больше, чем количество наблюдений N , часто записываемое как p >> N.
Например, набор данных с p = 6 признаками и только N = 3 наблюдениями будет считаться многомерными данными, поскольку количество признаков превышает количество наблюдений.
Распространенная ошибка, которую допускают люди, заключается в том, что они полагают, что «многомерные данные» просто означают набор данных со многими функциями. Однако это неверно. Набор данных может содержать 10 000 объектов, но если он содержит 100 000 наблюдений, он не является многомерным.
Примечание. Обратитесь к главе 18 «Элементов статистического обучения» для более подробного обсуждения математических принципов, лежащих в основе многомерных данных.
Почему многомерные данные являются проблемой?
Когда количество объектов в наборе данных превышает количество наблюдений, мы никогда не получим детерминированного ответа.
Другими словами, становится невозможным найти модель, которая сможет описать взаимосвязь между переменными-предикторами и переменной отклика , поскольку у нас недостаточно наблюдений для обучения модели.
Примеры многомерных данных
Следующие примеры иллюстрируют многомерные наборы данных в разных областях.
Пример 1: Данные о состоянии здоровья
Многомерные данные часто встречаются в наборах медицинских данных, где количество характеристик для данного человека может быть огромным (например, артериальное давление, частота сердечных сокращений в состоянии покоя, состояние иммунной системы, хирургический анамнез, рост, вес, существующие состояния и т. д.).
В этих наборах данных количество объектов обычно превышает количество наблюдений.
Пример 2: финансовые данные
Высокоразмерные данные также распространены в наборах финансовых данных, где количество характеристик для данной акции может быть довольно большим (например, коэффициент PE, рыночная капитализация, объем торгов, ставка дивидендов и т. д.).
В наборах данных этих типов количество объектов обычно намного превышает количество отдельных действий.
Пример 3: Геномика
Данные большой размерности также распространены в области геномики, где количество генетических характеристик конкретного человека может быть огромным.
Как обрабатывать большие данные
Существует два распространенных способа обработки многомерных данных:
1. Выберите меньшее количество функций.
Самый очевидный способ избежать работы с многомерными данными — просто включить в набор данных меньше объектов.
Существует несколько способов решить, какие объекты удалить из набора данных, в том числе:
- Удалить объекты с большим количеством пропущенных значений. Если в данном столбце набора данных много пропущенных значений, вы можете полностью удалить его, не теряя при этом много информации.
- Удалите функции с низкой дисперсией. Если данный столбец в наборе данных имеет значения, которые изменяются очень незначительно, вы можете удалить его, поскольку он вряд ли предоставит столько же полезной информации о переменной ответа, сколько другие функции.
- Удалите функции с низкой корреляцией с переменной ответа. Если определенный объект не сильно коррелирует с интересующей вас переменной ответа, вы, вероятно, можете удалить его из набора данных, поскольку маловероятно, что это будет полезная функция в модели.
2. Используйте метод регуляризации.
Другой способ обработки многомерных данных без удаления объектов из набора данных — использовать такой метод регуляризации, как:
Каждый из этих методов можно использовать для эффективной обработки многомерных данных.
Полный список всех учебных пособий по статистическому машинному обучению вы можете найти на этой странице .