Длинные или широкие данные: в чем разница?


Набор данных можно записать в двух разных форматах: широком и длинном .

Широкий формат содержит значения, которые не повторяются в первом столбце.

Длинный формат содержит значения, повторяющиеся в первом столбце.

Например, рассмотрим следующие два набора данных, которые содержат одни и те же данные, выраженные в разных форматах:

Широкий или длинный формат данных

Обратите внимание, что в расширенном наборе данных каждое значение в первом столбце уникально.

Напротив, в длинном наборе данных значения в первом столбце повторяются.

Оба набора данных содержат одну и ту же информацию о команде, но она просто выражена в разных форматах.

Когда использовать широкие или длинные данные

В зависимости от того, что вы хотите делать с вашими данными, возможно, имеет смысл представить их в широком или длинном формате.

Когда использовать большой формат

Как правило, если вы анализируете данные, вы обычно используете широкий формат данных.

Например, если вы хотите узнать среднее количество очков, передач и подборов, набранных командой, зачастую проще иметь данные в большом формате:

Большинство наборов данных, с которыми вы сталкиваетесь в реальном мире, также будут сохранены в широком формате, поскольку нашему мозгу их легче интерпретировать.

Например, в приведенном выше формате легко прочитать значения очков, передач и подборов для каждой команды в одной строке.

Когда использовать длинный формат

Обычно, если вы просматриваете несколько переменных на графике с помощью статистического программного обеспечения, такого как R , вам обычно необходимо преобразовать данные в длинный формат, чтобы программное обеспечение могло создать график.

Примеры из реальной жизни можно найти в этих руководствах по R, где данные должны быть в длинном формате для создания графиков определенных типов:

Иногда вам может потребоваться преобразовать данные в другой формат, если вы также используете Python .

В следующих руководствах объясняется, как изменить форму фреймов данных в Python:

Дополнительные ресурсы

В следующих руководствах представлена информация о других часто используемых статистических терминах:

Что такое наблюдение в статистике?
Что такое ковариата в статистике?
Что такое остатки в статистике?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *