Длинные или широкие данные: в чем разница?
Набор данных можно записать в двух разных форматах: широком и длинном .
Широкий формат содержит значения, которые не повторяются в первом столбце.
Длинный формат содержит значения, повторяющиеся в первом столбце.
Например, рассмотрим следующие два набора данных, которые содержат одни и те же данные, выраженные в разных форматах:
Обратите внимание, что в расширенном наборе данных каждое значение в первом столбце уникально.
Напротив, в длинном наборе данных значения в первом столбце повторяются.
Оба набора данных содержат одну и ту же информацию о команде, но она просто выражена в разных форматах.
Когда использовать широкие или длинные данные
В зависимости от того, что вы хотите делать с вашими данными, возможно, имеет смысл представить их в широком или длинном формате.
Когда использовать большой формат
Как правило, если вы анализируете данные, вы обычно используете широкий формат данных.
Например, если вы хотите узнать среднее количество очков, передач и подборов, набранных командой, зачастую проще иметь данные в большом формате:
Большинство наборов данных, с которыми вы сталкиваетесь в реальном мире, также будут сохранены в широком формате, поскольку нашему мозгу их легче интерпретировать.
Например, в приведенном выше формате легко прочитать значения очков, передач и подборов для каждой команды в одной строке.
Когда использовать длинный формат
Обычно, если вы просматриваете несколько переменных на графике с помощью статистического программного обеспечения, такого как R , вам обычно необходимо преобразовать данные в длинный формат, чтобы программное обеспечение могло создать график.
Примеры из реальной жизни можно найти в этих руководствах по R, где данные должны быть в длинном формате для создания графиков определенных типов:
- Как построить графики нескольких плотностей в R
- Как построить несколько столбцов в R
- Как создать тепловую карту в R
Иногда вам может потребоваться преобразовать данные в другой формат, если вы также используете Python .
В следующих руководствах объясняется, как изменить форму фреймов данных в Python:
- Как изменить форму данных от длинных к широким в Python
- Как изменить форму данных с широких на длинные в Python
Дополнительные ресурсы
В следующих руководствах представлена информация о других часто используемых статистических терминах:
Что такое наблюдение в статистике?
Что такое ковариата в статистике?
Что такое остатки в статистике?