Statystyk a analityk danych: jaka jest różnica?


Zarówno statystycy , jak i badacze danych dużo pracują z danymi, ale istnieje kilka kluczowych różnic między tymi dwoma zawodami:

Różnica nr 1 (rodzaje danych) – Naukowcy zajmujący się danymi spędzają więcej czasu na gromadzeniu i czyszczeniu niedoskonałych danych, podczas gdy statystycy na ogół dysponują uporządkowanymi danymi.

Różnica nr 2 (cele końcowe) – Naukowcy zajmujący się danymi zwykle skupiają się na tworzeniu modeli przewidujących wyniki, podczas gdy statystycy zwykle skupiają się na tworzeniu modeli, które dokładnie opisują relacje między zmiennymi.

Różnica nr 3 (Produkcja) – Naukowcy zajmujący się danymi mają tendencję do budowania modeli, które są wdrażane w przedsiębiorstwach, podczas gdy statystycy mają tendencję do tworzenia modeli, które mogą dostarczyć wglądu lub wyjaśnień na temat zjawiska.

Czytaj dalej, aby uzyskać szczegółowe wyjaśnienie tych różnic.

Różnica nr 1: Typy danych

Ogólnie rzecz biorąc, badacze danych często pracują z danymi, które są bardziej skomplikowane, trudniejsze do wyodrębnienia i znacznie większe niż dane wykorzystywane przez statystyków.

Na przykład analityk danych pracujący w firmie z branży nieruchomości może potrzebować wyodrębnić zestawy danych zawierające miliony wierszy z kilku różnych serwerów zewnętrznych, wszystkie w różnych formatach.

Potrzebowałaby rozległej wiedzy na temat SQL i co najmniej jednego języka programowania (takiego jak R lub Python ), aby wyodrębnić dane i spakować je do formatu odpowiedniego do modelowania.

Z kolei statystycy mają tendencję do pracy z mniejszymi zbiorami danych, już przedstawionymi w schludnym formacie.

Na przykład statystyk pracujący dla firmy biomedycznej może otrzymać 50-liniowy plik Excel zawierający informacje na temat ciśnienia krwi, tętna i poziomu cholesterolu u 50 różnych pacjentów.

Zamiast tracić czas na wyodrębnianie i czyszczenie danych, prawdopodobnie spędziliby więcej czasu na wyborze odpowiedniego testu hipotezy lub modelu, który będzie pasował do danych i sprawdzeniu, czy przestrzegane są założenia wybranego testu lub modelu statystyki.

Różnica nr 2: Cele końcowe

W wielu przypadkach ostatecznym celem analityka danych jest stworzenie pewnego rodzaju modelu, który może dokładnie przewidzieć określone wyniki.

Na przykład analityk danych pracujący w firmie finansowej może podjąć próbę stworzenia modelu regresji logistycznej , który będzie w stanie dokładnie przewidzieć, czy określone osoby nie spłacają pożyczki.

Dopasują różne modele przy użyciu różnych kombinacji zmiennych predykcyjnych i spróbują znaleźć model, który generuje najdokładniejsze przewidywania.

Ich ostatecznym celem jest stworzenie dokładnego modelu, a nie dokładne ilościowe określenie powiązania każdej zmiennej predykcyjnej zezmienną odpowiedzi .

Z kolei statystycy skupiają się bardziej na tworzeniu modeli, które mogą dokładnie opisać związek między zmiennymi predykcyjnymi a zmienną odpowiedzi.

Na przykład statystyk pracujący na uniwersytecie może zrekrutować 30 studentów do udziału w badaniu, które dokładnie określa ilościowo, w jaki sposób różne nawyki związane z nauką wpływają na wyniki egzaminów.

W tym scenariuszu statystyk byłby bardziej zainteresowany interpretacją współczynników modelu regresji i analizą odpowiadających im wartości p , aby zrozumieć, czy mają one statystycznie istotny związek ze zmienną odpowiedzi.

Różnica nr 3: Produkcja

Ogólnie rzecz biorąc, badacze danych mają tendencję do tworzenia modeli statystycznych, które są wdrażane w przedsiębiorstwach znacznie częściej niż statystycy.

Na przykład analityk danych pracujący w dużej sieci spożywczej może stworzyć model, który będzie w stanie dokładnie przewidzieć sprzedaż różnych produktów.

Jego ostatecznym celem byłaby współpraca z programistami w firmie, którzy pomogą mu umieścić model na serwerze działającym każdej nocy i mogącym przewidywać sprzedaż produktów na każdy nowy dzień.

Z drugiej strony statystycy rzadko tworzą modele zintegrowane z rodzajem produkcji.

Na przykład statystyk pracujący w firmie zajmującej się opieką zdrowotną może zbudować model opisujący związek między różnymi czynnikami stylu życia (paleniem, ćwiczeniami fizycznymi, dietą itp.), ale ich ostatecznym celem jest po prostu ilościowe określenie związku między tymi czynnikami a zmienną odpowiedzi . jak długość życia.

Ich ostatecznym celem jest stworzenie modelu, który dostarcza im informacji, a nie modelu umieszczanego w środowisku produkcyjnym.

Wniosek

Zarówno statystycy, jak i badacze danych pracują z danymi w swoich codziennych rolach, ale robią to na różne sposoby.

Analitycy danych zwykle pracują z szerszą gamą danych, które często są niechlujne i wymagają przetworzenia, podczas gdy statystycy często pracują z mniejszymi, bardziej uporządkowanymi zbiorami danych.

Naukowcy zajmujący się danymi skupiają się również bardziej na budowaniu modeli, które mogą dokładnie przewidzieć wyniki, podczas gdy statystycy mają tendencję do tworzenia modeli, które mogą dokładnie wyjaśniać relacje między zmiennymi.

Wreszcie, badacze danych mają tendencję do wdrażania modeli w firmach, podczas gdy statystycy często podsumowują i raportują swoje wyniki, aby zapewnić wgląd w zjawiska w świecie rzeczywistym.

Dodatkowe zasoby

Poniższe artykuły wyjaśniają znaczenie statystyki w różnych dziedzinach:

Dlaczego statystyki są ważne? (10 powodów, dla których statystyki są ważne!)
Znaczenie statystyki w przedsiębiorstwach
Znaczenie statystyki w edukacji
Znaczenie statystyki w ochronie zdrowia
Znaczenie statystyki w finansach

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *