Статистик и специалист по данным: в чем разница?


Статистики и ученые, работающие с данными , много работают с данными, но между этими двумя профессиями есть несколько ключевых различий:

Отличие №1 (типы данных). Ученые, работающие с данными, как правило, тратят больше времени на сбор и очистку несовершенных данных, в то время как статистики обычно имеют аккуратные данные.

Отличие № 2 (конечные цели) . Ученые, работающие с данными, обычно сосредотачиваются на создании моделей, прогнозирующих результаты, в то время как статистики, как правило, сосредотачиваются на создании моделей, которые точно описывают взаимосвязь между переменными.

Отличие № 3 (Производство) . Ученые, работающие с данными, склонны создавать модели, которые внедряются в производство на предприятиях, в то время как статистики склонны создавать модели, которые могут дать понимание или объяснение этого явления.

Продолжайте читать, чтобы получить подробное объяснение этих различий.

Отличие №1: типы данных

В целом специалисты по обработке данных часто работают с данными, которые более сложны, их труднее извлечь и которые намного больше, чем те типы данных, которые используют статистики.

Например, специалисту по данным, работающему в компании по недвижимости, возможно, потребуется извлечь наборы данных, содержащие миллионы строк, с нескольких разных внешних серверов, причем все в разных форматах.

Ей потребуются обширные знания SQL и хотя бы одного языка программирования (например, R или Python ), чтобы извлечь данные и упаковать их в формат, подходящий для моделирования.

Напротив, статистики, как правило, работают с меньшими наборами данных, уже представленными в четком формате.

Например, статистик, работающий в биомедицинской компании, может получить файл Excel из 50 строк, содержащий информацию о артериальном давлении, частоте сердечных сокращений и уровнях холестерина у 50 различных пациентов.

Вместо того, чтобы тратить свое время на извлечение и очистку данных, они, скорее всего, потратят больше времени на выбор подходящего теста гипотезы или модели, подходящей для данных, и на проверку того, что предположения выбранной статистики теста или модели соблюдаются.

Отличие №2: Конечные цели

Во многих случаях конечной целью специалиста по данным является создание модели определенного типа, которая сможет точно предсказать определенные результаты.

Например, специалист по данным, работающий в финансовой компании, может попытаться создать модель логистической регрессии , которая сможет точно предсказать, не смогут ли определенные люди выплатить кредит.

Они будут соответствовать множеству моделей, используя различные комбинации переменных-предикторов, и попытаются найти модель, которая дает наиболее точные прогнозы.

Их конечная цель — создать точную модель, а не количественно определить, как именно каждая переменная-предиктор соотносится с переменной отклика .

Напротив, статистики, как правило, больше сосредотачиваются на создании моделей, которые могут точно описать взаимосвязь между переменными-предикторами и переменной отклика.

Например, статистик, работающий в университете, может нанять 30 студентов для участия в исследовании, которое точно определит, как различные учебные привычки влияют на результаты экзаменов.

В этом сценарии статистик будет больше озабочен интерпретацией коэффициентов регрессионной модели и анализом соответствующих им значений p , чтобы понять, имеют ли они статистически значимую связь с переменной ответа.

Отличие №3: Производство

В целом специалисты по обработке данных склонны создавать статистические модели, которые внедряются в бизнес гораздо чаще, чем статистики.

Например, специалист по данным, работающий в крупной продуктовой сети, может создать модель, которая сможет точно прогнозировать продажи различных продуктов.

Его конечной целью будет работать с разработчиками компании, которые помогут ему разместить его модель на сервере, который будет работать каждую ночь и сможет прогнозировать продажи продукта на каждый новый день.

С другой стороны, статистики редко создают модели, интегрированные в тот или иной тип производства.

Например, статистик, работающий в медицинской компании, может построить модель, описывающую взаимосвязь между различными факторами образа жизни (курение, физические упражнения, диета и т. д.), но его конечная цель — просто количественно оценить взаимосвязь между этими факторами и переменной ответа. . как продолжительность жизни.

Их конечная цель — создать модель, которая предоставляет им информацию, а не модель, размещенную в производственной среде.

Заключение

Статистики и специалисты по обработке данных работают с данными в своей повседневной работе, но делают это по-разному.

Ученые, работающие с данными, как правило, работают с более широким спектром данных, которые часто беспорядочны и требуют обработки, в то время как статистики часто работают с меньшими и более аккуратными наборами данных.

Ученые, работающие с данными, также склонны уделять больше внимания построению моделей, которые могут точно предсказывать результаты, в то время как статистики склонны создавать модели, которые могут точно объяснить взаимосвязь между переменными.

Наконец, ученые, работающие с данными, как правило, внедряют модели в производство, в то время как статистики часто суммируют и сообщают свои результаты, чтобы дать представление о явлениях реального мира.

Дополнительные ресурсы

В следующих статьях объясняется важность статистики в различных областях:

Почему важна статистика? (10 причин, почему статистика важна!)
Важность статистики в бизнесе
Важность статистики в образовании
Важность статистики в здравоохранении
Важность статистики в финансах

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *