Статистик и специалист по данным: в чем разница?
Статистики и ученые, работающие с данными , много работают с данными, но между этими двумя профессиями есть несколько ключевых различий:
Отличие №1 (типы данных). Ученые, работающие с данными, как правило, тратят больше времени на сбор и очистку несовершенных данных, в то время как статистики обычно имеют аккуратные данные.
Отличие № 2 (конечные цели) . Ученые, работающие с данными, обычно сосредотачиваются на создании моделей, прогнозирующих результаты, в то время как статистики, как правило, сосредотачиваются на создании моделей, которые точно описывают взаимосвязь между переменными.
Отличие № 3 (Производство) . Ученые, работающие с данными, склонны создавать модели, которые внедряются в производство на предприятиях, в то время как статистики склонны создавать модели, которые могут дать понимание или объяснение этого явления.
Продолжайте читать, чтобы получить подробное объяснение этих различий.
Отличие №1: типы данных
В целом специалисты по обработке данных часто работают с данными, которые более сложны, их труднее извлечь и которые намного больше, чем те типы данных, которые используют статистики.
Например, специалисту по данным, работающему в компании по недвижимости, возможно, потребуется извлечь наборы данных, содержащие миллионы строк, с нескольких разных внешних серверов, причем все в разных форматах.
Ей потребуются обширные знания SQL и хотя бы одного языка программирования (например, R или Python ), чтобы извлечь данные и упаковать их в формат, подходящий для моделирования.
Напротив, статистики, как правило, работают с меньшими наборами данных, уже представленными в четком формате.
Например, статистик, работающий в биомедицинской компании, может получить файл Excel из 50 строк, содержащий информацию о артериальном давлении, частоте сердечных сокращений и уровнях холестерина у 50 различных пациентов.
Вместо того, чтобы тратить свое время на извлечение и очистку данных, они, скорее всего, потратят больше времени на выбор подходящего теста гипотезы или модели, подходящей для данных, и на проверку того, что предположения выбранной статистики теста или модели соблюдаются.
Отличие №2: Конечные цели
Во многих случаях конечной целью специалиста по данным является создание модели определенного типа, которая сможет точно предсказать определенные результаты.
Например, специалист по данным, работающий в финансовой компании, может попытаться создать модель логистической регрессии , которая сможет точно предсказать, не смогут ли определенные люди выплатить кредит.
Они будут соответствовать множеству моделей, используя различные комбинации переменных-предикторов, и попытаются найти модель, которая дает наиболее точные прогнозы.
Их конечная цель — создать точную модель, а не количественно определить, как именно каждая переменная-предиктор соотносится с переменной отклика .
Напротив, статистики, как правило, больше сосредотачиваются на создании моделей, которые могут точно описать взаимосвязь между переменными-предикторами и переменной отклика.
Например, статистик, работающий в университете, может нанять 30 студентов для участия в исследовании, которое точно определит, как различные учебные привычки влияют на результаты экзаменов.
В этом сценарии статистик будет больше озабочен интерпретацией коэффициентов регрессионной модели и анализом соответствующих им значений p , чтобы понять, имеют ли они статистически значимую связь с переменной ответа.
Отличие №3: Производство
В целом специалисты по обработке данных склонны создавать статистические модели, которые внедряются в бизнес гораздо чаще, чем статистики.
Например, специалист по данным, работающий в крупной продуктовой сети, может создать модель, которая сможет точно прогнозировать продажи различных продуктов.
Его конечной целью будет работать с разработчиками компании, которые помогут ему разместить его модель на сервере, который будет работать каждую ночь и сможет прогнозировать продажи продукта на каждый новый день.
С другой стороны, статистики редко создают модели, интегрированные в тот или иной тип производства.
Например, статистик, работающий в медицинской компании, может построить модель, описывающую взаимосвязь между различными факторами образа жизни (курение, физические упражнения, диета и т. д.), но его конечная цель — просто количественно оценить взаимосвязь между этими факторами и переменной ответа. . как продолжительность жизни.
Их конечная цель — создать модель, которая предоставляет им информацию, а не модель, размещенную в производственной среде.
Заключение
Статистики и специалисты по обработке данных работают с данными в своей повседневной работе, но делают это по-разному.
Ученые, работающие с данными, как правило, работают с более широким спектром данных, которые часто беспорядочны и требуют обработки, в то время как статистики часто работают с меньшими и более аккуратными наборами данных.
Ученые, работающие с данными, также склонны уделять больше внимания построению моделей, которые могут точно предсказывать результаты, в то время как статистики склонны создавать модели, которые могут точно объяснить взаимосвязь между переменными.
Наконец, ученые, работающие с данными, как правило, внедряют модели в производство, в то время как статистики часто суммируют и сообщают свои результаты, чтобы дать представление о явлениях реального мира.
Дополнительные ресурсы
В следующих статьях объясняется важность статистики в различных областях:
Почему важна статистика? (10 причин, почему статистика важна!)
Важность статистики в бизнесе
Важность статистики в образовании
Важность статистики в здравоохранении
Важность статистики в финансах