Cosa sono considerati dati grezzi? (definizione ed esempi)


In statistica, i dati grezzi si riferiscono a dati raccolti direttamente da una fonte primaria e non elaborati in alcun modo.

In qualsiasi tipo di progetto di analisi dei dati, il primo passo è raccogliere dati grezzi. Una volta raccolti, questi dati possono essere ripuliti, trasformati, riepilogati e visualizzati.

Il vantaggio di raccogliere dati grezzi è quello di poterli eventualmente utilizzare per comprendere meglio determinati fenomeni o utilizzarli per costruire una sorta di modello predittivo.

L’esempio seguente illustra come i dati grezzi possono essere raccolti e utilizzati nella vita reale.

Esempio: raccolta e utilizzo di dati grezzi

Lo sport è un settore in cui vengono spesso raccolti dati grezzi. Ad esempio, è possibile raccogliere dati grezzi per varie statistiche riguardanti i giocatori di basket professionisti.

Passaggio 1: raccogliere i dati grezzi

Immagina che uno scout di basket raccolga i seguenti dati grezzi per 10 giocatori di una squadra di basket professionistica:

Questo set di dati rappresenta i dati grezzi in quanto raccolti direttamente dallo scout e non sono stati puliti o elaborati in alcun modo.

Passaggio 2: pulire i dati grezzi

Prima di utilizzare questi dati per creare tabelle riassuntive, grafici o qualsiasi altra cosa, lo scout deve prima rimuovere eventuali valori mancanti e ripulire eventuali valori dei dati “sporchi”.

Ad esempio, potremmo individuare diversi valori nel set di dati che devono essere trasformati o rimossi:

Lo scout può decidere di rimuovere completamente l’ultima riga perché presenta diversi valori mancanti. Può quindi pulire i valori dei caratteri nel set di dati per ottenere i seguenti dati “puliti”:

Passaggio 3: riepilogare i dati

Una volta puliti i dati, lo scout può quindi riassumere ciascuna variabile nel set di dati. Ad esempio, potrebbe calcolare le seguenti statistiche riassuntive per la variabile “Minuti”:

  • Media : 24 minuti
  • Media : 22 minuti
  • Deviazione standard : 9,45 minuti

Passaggio 4: visualizzare i dati

Lo scout può quindi visualizzare le variabili nel set di dati per comprendere meglio i valori dei dati.

Ad esempio, potrebbe creare il seguente grafico a barre per visualizzare il totale dei minuti giocati da ciascun giocatore:

Oppure potrebbe creare il seguente grafico a dispersione per visualizzare la relazione tra i minuti giocati e i punti segnati:

Ciascuno di questi tipi di grafici può aiutarlo a comprendere meglio i dati.

Passaggio 5: utilizzare i dati per creare un modello

Infine, una volta ripuliti i dati, lo scout può decidere di adattare qualche tipo di modello predittivo.

Ad esempio, può adattarsi a un semplice modello di regressione lineare e utilizzare i minuti giocati per prevedere i punti totali segnati da ciascun giocatore.

L’equazione di regressione adattata è:

Punti = 8,7012 + 0,2717*(minuti)

Lo scout potrebbe quindi utilizzare questa equazione per prevedere il numero di punti che un giocatore segnerà in base al numero di minuti giocati. Ad esempio, un atleta che gioca 30 minuti dovrebbe totalizzare 16,85 punti:

Punti = 8,7012 + 0,2717*(30) = 16,85

Risorse addizionali

Perché le statistiche sono importanti?
Perché la dimensione del campione è importante nelle statistiche?
Che cos’è un’osservazione in statistica?
Cosa sono i dati tabulari nelle statistiche?

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *