Statistician проти data scientist: у чому різниця?
Статистики та дослідники даних багато працюють із даними, але між цими двома професіями є кілька ключових відмінностей:
Відмінність №1 (Типи даних) – дослідники обробки даних, як правило, витрачають більше часу на збір і очищення недосконалих даних, у той час як статистики зазвичай мають охайні дані.
Відмінність №2 (Кінцеві цілі) – Фахівці з даних зазвичай зосереджуються на створенні моделей, які передбачають результати, тоді як статистики, як правило, зосереджуються на створенні моделей, які точно описують зв’язок між змінними.
Відмінність №3 (виробництво) – спеціалісти з обробки даних, як правило, створюють моделі, які впроваджуються у виробництво на підприємствах, тоді як статистики, як правило, створюють моделі, які можуть надати розуміння або пояснення цього явища.
Продовжуйте читати, щоб отримати детальне пояснення цих відмінностей.
Відмінність №1: Типи даних
Загалом спеціалісти з обробки даних часто працюють із даними, які є складнішими, важчими для вилучення та набагато більшими, ніж дані, які використовують статистики.
Наприклад, спеціалісту з обробки даних, який працює в компанії з нерухомості, може знадобитися видобути набори даних, що містять мільйони рядків, із кількох різних зовнішніх серверів у різних форматах.
Їй знадобляться глибокі знання SQL і принаймні одна мова програмування (наприклад, R або Python ), щоб отримати дані та запакувати їх у формат, придатний для моделювання.
Навпаки, статистики, як правило, працюють з меншими наборами даних, уже представленими в акуратному форматі.
Наприклад, статистик, який працює в біомедичній компанії, може отримати 50-рядковий файл Excel, що містить інформацію про артеріальний тиск, частоту серцевих скорочень і рівні холестерину 50 різних пацієнтів.
Замість того, щоб витрачати свій час на вилучення та очищення даних, вони, ймовірно, витратили б більше часу на прийняття рішення щодо відповідного тесту гіпотези чи моделі, щоб відповідати даним, і перевірки дотримання припущень тесту чи обраної моделі.
Відмінність №2: кінцеві цілі
У багатьох випадках кінцевою метою фахівця з даних є створення певного типу моделі, яка може точно передбачити певні результати.
Наприклад, фахівець з даних, який працює у фінансовій компанії, може спробувати створити модель логістичної регресії , яка зможе точно передбачити, чи певні люди не виплатять кредит.
Вони відповідатимуть різноманітним моделям, використовуючи різні комбінації змінних предикторів, і намагатимуться знайти модель, яка дає найточніші прогнози.
Їхня кінцева мета полягає у створенні точної моделі, а не в кількісному визначенні того, як кожна прогностична змінна пов’язана зі змінною відповіді .
На противагу цьому, статистики, як правило, більше зосереджуються на створенні моделей, які можуть точно описати зв’язок між змінними предикторів і змінною відповіді.
Наприклад, статистик, який працює в університеті, може залучити 30 студентів для участі в дослідженні, яке кількісно визначає, як різні звички до навчання впливають на результати іспитів.
У цьому сценарії статист буде більше стурбований інтерпретацією коефіцієнтів моделі регресії та аналізом відповідних їм значень p , щоб зрозуміти, чи мають вони статистично значущий зв’язок зі змінною відповіді.
Відмінність №3: Виробництво
Загалом спеціалісти з даних прагнуть створювати статистичні моделі, які впроваджуються у виробництво на підприємствах набагато частіше, ніж статистики.
Наприклад, фахівець із обробки даних, який працює у великій продуктовій мережі, може створити модель, яка зможе точно передбачити продажі різних продуктів.
Його кінцевою метою була б робота з розробниками в компанії, які могли б допомогти йому розмістити його модель на сервері, який працює щоночі та може передбачити продажі продукту на кожен новий день.
З іншого боку, статистики рідко створюють моделі, інтегровані в тип виробництва.
Наприклад, статистик, який працює в медичній компанії, може побудувати модель, що описує взаємозв’язок між різними факторами способу життя (куріння, фізичні вправи, дієта тощо), але його кінцевою метою є просто кількісна оцінка зв’язку між цими факторами та змінною відповіді. . як тривалість життя.
Їхня кінцева мета — створити модель, яка надає їм інформацію, а не модель, яка розміщується у виробничому середовищі.
Висновок
Статистики та дослідники даних працюють із даними у своїй повсякденній роботі, але роблять це по-різному.
Науковці даних, як правило, працюють із широким спектром даних, які часто безладні та потребують обробки, у той час як статистики часто працюють із меншими, акуратнішими наборами даних.
Фахівці з даних також більше зосереджуються на побудові моделей, які можуть точно передбачити результати, тоді як статистики, як правило, створюють моделі, які можуть точно пояснити зв’язок між змінними.
Нарешті, науковці, які займаються даними, прагнуть використовувати моделі для виробництва на підприємствах, тоді як статистики часто підсумовують і звітують про свої результати, щоб надати розуміння реальних явищ.
Додаткові ресурси
У наступних статтях пояснюється важливість статистики в різних сферах:
Чому статистика важлива? (10 причин, чому статистика важлива!)
Важливість статистики в бізнесі
Значення статистики в освіті
Значення статистики в охороні здоров’я
Значення статистики у фінансах