Statisticus versus data scientist: wat is het verschil?
Statistici en datawetenschappers werken allebei veel met data, maar er zijn een paar belangrijke verschillen tussen de twee beroepen:
Verschil #1 (soorten gegevens) – Datawetenschappers besteden doorgaans meer tijd aan het verzamelen en opschonen van imperfecte gegevens, terwijl statistici over het algemeen over nette gegevens beschikken.
Verschil #2 (einddoelen) – Datawetenschappers hebben de neiging zich te concentreren op het maken van modellen die uitkomsten voorspellen, terwijl statistici de neiging hebben zich te concentreren op het maken van modellen die de relatie tussen variabelen nauwkeurig beschrijven.
Verschil #3 (Productie) – Datawetenschappers hebben de neiging modellen te bouwen die in bedrijven in productie worden genomen, terwijl statistici de neiging hebben modellen te bouwen die inzichten of verklaringen over het fenomeen kunnen bieden.
Blijf lezen voor een gedetailleerde uitleg van deze verschillen.
Verschil #1: gegevenstypen
Over het algemeen werken datawetenschappers vaak met gegevens die ingewikkelder zijn, moeilijker te extraheren en veel groter zijn dan het soort gegevens dat door statistici wordt gebruikt.
Een datawetenschapper die bij een vastgoedbedrijf werkt, moet bijvoorbeeld datasets met miljoenen rijen extraheren van verschillende externe servers, allemaal in verschillende formaten.
Ze zou uitgebreide kennis van SQL en ten minste één programmeertaal (zoals R of Python ) nodig hebben om de gegevens te extraheren en te verpakken in een formaat dat geschikt is voor modellering.
Statistici daarentegen hebben de neiging om met kleinere datasets te werken, die al in een overzichtelijk formaat worden gepresenteerd.
Een statisticus die voor een biomedisch bedrijf werkt, ontvangt bijvoorbeeld een Excel-bestand van 50 regels met informatie over de bloeddruk, hartslag en cholesterolwaarden van 50 verschillende patiënten.
In plaats van hun tijd te besteden aan het extraheren en opschonen van gegevens, zouden ze waarschijnlijk meer tijd besteden aan het beslissen over een geschikte hypothesetest of een geschikt model dat bij de gegevens past en aan het verifiëren dat de aannames van de gekozen test of het gekozen model worden gerespecteerd.
Verschil #2: einddoelen
In veel gevallen is het einddoel van een datawetenschapper het creëren van een model dat bepaalde uitkomsten nauwkeurig kan voorspellen.
Een datawetenschapper die voor een financieel bedrijf werkt, zou bijvoorbeeld kunnen proberen een logistisch regressiemodel te creëren dat nauwkeurig kan voorspellen of bepaalde mensen hun lening niet zullen kunnen afbetalen.
Ze zullen een verscheidenheid aan modellen passen met behulp van verschillende combinaties van voorspellende variabelen en proberen het model te vinden dat de meest nauwkeurige voorspellingen oplevert.
Hun einddoel is het creëren van een accuraat model in plaats van precies te kwantificeren hoe elke voorspellende variabele zich verhoudt tot deresponsvariabele .
Statistici daarentegen hebben de neiging zich meer te concentreren op het creëren van modellen die de relatie tussen voorspellende variabelen en een responsvariabele nauwkeurig kunnen beschrijven.
Een statisticus die aan een universiteit werkt, kan bijvoorbeeld dertig studenten rekruteren om deel te nemen aan een onderzoek dat precies kwantificeert hoe verschillende studiegewoonten de examenscores beïnvloeden.
In dit scenario zou de statisticus zich meer bezighouden met het interpreteren van de regressiemodelcoëfficiënten en het analyseren van de bijbehorende p-waarden om te begrijpen of deze een statistisch significante relatie hebben met de responsvariabele.
Verschil #3: Productie
Over het algemeen hebben datawetenschappers de neiging om statistische modellen te creëren die veel vaker in bedrijven in productie worden genomen dan statistici.
Een datawetenschapper die bij een grote supermarktketen werkt, zou bijvoorbeeld een model kunnen creëren dat de verkoop van verschillende producten nauwkeurig kan voorspellen.
Zijn einddoel zou zijn om samen te werken met ontwikkelaars bij het bedrijf die hem kunnen helpen zijn model op een server te zetten die elke nacht draait en de productverkoop voor elke nieuwe dag kan voorspellen.
Aan de andere kant creëren statistici zelden modellen die in een productietype zijn geïntegreerd.
Een statisticus die bij een gezondheidszorgbedrijf werkt, kan bijvoorbeeld een model bouwen dat de relatie beschrijft tussen verschillende leefstijlfactoren (roken, lichaamsbeweging, voeding, enz.), maar zijn einddoel is eenvoudigweg het kwantificeren van de relatie tussen deze factoren en een responsvariabele. . zoals levensduur.
Hun einddoel is om een model te creëren dat hen van informatie voorziet, in plaats van een model dat in een productieomgeving wordt geplaatst.
Conclusie
Statistici en datawetenschappers werken allebei in hun dagelijkse rol met data, maar doen dat op verschillende manieren.
Datawetenschappers werken vaak met een grotere verscheidenheid aan gegevens die vaak rommelig zijn en moeten worden verwerkt, terwijl statistici vaak met kleinere, overzichtelijkere datasets werken.
Datawetenschappers hebben ook de neiging zich meer te concentreren op het bouwen van modellen die de uitkomsten nauwkeurig kunnen voorspellen, terwijl statistici de neiging hebben modellen te bouwen die de relatie tussen variabelen nauwkeurig kunnen verklaren.
Ten slotte hebben datawetenschappers de neiging om modellen in bedrijven in productie te nemen, terwijl statistici hun resultaten vaak samenvatten en rapporteren om inzicht te geven in verschijnselen in de echte wereld.
Aanvullende bronnen
In de volgende artikelen wordt het belang van statistiek op verschillende gebieden uitgelegd:
Waarom zijn statistieken belangrijk? (10 redenen waarom statistieken belangrijk zijn!)
Het belang van statistieken in bedrijven
Het belang van statistiek in het onderwijs
Het belang van statistiek in de gezondheidszorg
Het belang van statistiek in de financiële wereld