Statistico vs data scientist: qual è la differenza?


Sia gli statistici che i data scientist lavorano molto con i dati, ma ci sono alcune differenze fondamentali tra le due professioni:

Differenza n. 1 (tipi di dati) – I data scientist tendono a dedicare più tempo alla raccolta e alla pulizia di dati imperfetti, mentre gli statistici generalmente hanno dati ordinati.

Differenza n. 2 (obiettivi finali) – I data scientist tendono a concentrarsi sulla creazione di modelli che prevedono i risultati, mentre gli statistici tendono a concentrarsi sulla creazione di modelli che descrivono accuratamente la relazione tra le variabili.

Differenza n. 3 (Produzione) – I data scientist tendono a costruire modelli che vengono messi in produzione nelle aziende, mentre gli statistici tendono a costruire modelli in grado di fornire approfondimenti o spiegazioni sul fenomeno.

Continua a leggere per una spiegazione dettagliata di queste differenze.

Differenza n. 1: tipi di dati

In generale, i data scientist lavorano spesso con dati più complicati, più difficili da estrarre e molto più grandi del tipo di dati utilizzati dagli statistici.

Ad esempio, un data scientist che lavora presso una società immobiliare potrebbe dover estrarre set di dati contenenti milioni di righe da diversi server esterni, tutti in formati diversi.

Avrebbe bisogno di una conoscenza approfondita di SQL e di almeno un linguaggio di programmazione (come R o Python ) per estrarre i dati e impacchettarli in un formato adatto alla modellazione.

Al contrario, gli statistici tendono a lavorare con insiemi di dati più piccoli, già presentati in un formato ordinato.

Ad esempio, uno statistico che lavora per un’azienda biomedica può ricevere un file Excel di 50 righe contenente informazioni sulla pressione sanguigna, sulla frequenza cardiaca e sui livelli di colesterolo di 50 pazienti diversi.

Piuttosto che dedicare il proprio tempo a estrarre e pulire i dati, probabilmente dedicherebbero più tempo a decidere un test di ipotesi o un modello appropriato da adattare ai dati e a verificare che le ipotesi del test o della statistica del modello scelto siano rispettate.

Differenza n. 2: obiettivi finali

In molti casi, l’obiettivo finale di un data scientist è creare un tipo di modello in grado di prevedere con precisione determinati risultati.

Ad esempio, un data scientist che lavora per una società finanziaria potrebbe tentare di creare un modello di regressione logistica in grado di prevedere con precisione se alcune persone saranno inadempienti su un prestito.

Si adatteranno a una varietà di modelli utilizzando diverse combinazioni di variabili predittive e tenteranno di trovare il modello che produce le previsioni più accurate.

Il loro obiettivo finale è creare un modello accurato piuttosto che quantificare esattamente il modo in cui ciascuna variabile predittrice si collega alla variabile di risposta .

Al contrario, gli statistici tendono a concentrarsi maggiormente sulla creazione di modelli in grado di descrivere accuratamente la relazione tra variabili predittive e una variabile di risposta.

Ad esempio, uno statistico che lavora in un’università potrebbe reclutare 30 studenti per partecipare a uno studio che quantifica esattamente l’impatto delle diverse abitudini di studio sui punteggi degli esami.

In questo scenario, lo statistico sarebbe più interessato a interpretare i coefficienti del modello di regressione e ad analizzare i corrispondenti valori p per capire se hanno una relazione statisticamente significativa con la variabile di risposta.

Differenza n. 3: produzione

In generale, i data scientist tendono a creare modelli statistici che vengono messi in produzione nelle aziende molto più spesso degli statistici.

Ad esempio, un data scientist che lavora presso una grande catena di alimentari potrebbe creare un modello in grado di prevedere con precisione le vendite di vari prodotti.

Il suo obiettivo finale sarebbe quello di collaborare con gli sviluppatori dell’azienda che possano aiutarlo a inserire il suo modello in un server che funziona ogni notte e in grado di prevedere le vendite dei prodotti per ogni nuovo giorno.

D’altro canto, gli statistici raramente creano modelli integrati in un tipo di produzione.

Ad esempio, uno statistico che lavora presso un’azienda sanitaria può costruire un modello che descrive la relazione tra vari fattori legati allo stile di vita (fumo, esercizio fisico, dieta, ecc.), ma il suo obiettivo finale è semplicemente quello di quantificare la relazione tra questi fattori e una variabile di risposta . come la durata della vita.

Il loro obiettivo finale è creare un modello che fornisca loro informazioni anziché inserirlo in un ambiente di produzione.

Conclusione

Sia gli statistici che i data scientist lavorano con i dati nel loro ruolo quotidiano, ma lo fanno in modi diversi.

I data scientist tendono a lavorare con una più ampia varietà di dati che spesso sono disordinati e necessitano di essere elaborati, mentre gli statistici spesso lavorano con set di dati più piccoli e più ordinati.

I data scientist tendono inoltre a concentrarsi maggiormente sulla costruzione di modelli in grado di prevedere con precisione i risultati, mentre gli statistici tendono a costruire modelli in grado di spiegare con precisione la relazione tra le variabili.

Infine, i data scientist tendono a mettere in produzione modelli nelle aziende, mentre gli statistici spesso riassumono e riportano i loro risultati per fornire informazioni sui fenomeni del mondo reale.

Risorse addizionali

I seguenti articoli spiegano l’importanza delle statistiche in vari campi:

Perché le statistiche sono importanti? (10 motivi per cui le statistiche sono importanti!)
L’importanza della statistica nelle imprese
L’importanza della statistica nell’istruzione
L’importanza della statistica in sanità
L’importanza della statistica in finanza

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *