Cosa sono considerati dati grezzi? (definizione ed esempi)
In statistica, i dati grezzi si riferiscono a dati raccolti direttamente da una fonte primaria e non elaborati in alcun modo.
In qualsiasi tipo di progetto di analisi dei dati, il primo passo è raccogliere dati grezzi. Una volta raccolti, questi dati possono essere ripuliti, trasformati, riepilogati e visualizzati.
Il vantaggio di raccogliere dati grezzi è quello di poterli eventualmente utilizzare per comprendere meglio determinati fenomeni o utilizzarli per costruire una sorta di modello predittivo.
L’esempio seguente illustra come i dati grezzi possono essere raccolti e utilizzati nella vita reale.
Esempio: raccolta e utilizzo di dati grezzi
Lo sport è un settore in cui vengono spesso raccolti dati grezzi. Ad esempio, è possibile raccogliere dati grezzi per varie statistiche riguardanti i giocatori di basket professionisti.
Passaggio 1: raccogliere i dati grezzi
Immagina che uno scout di basket raccolga i seguenti dati grezzi per 10 giocatori di una squadra di basket professionistica:
Questo set di dati rappresenta i dati grezzi in quanto raccolti direttamente dallo scout e non sono stati puliti o elaborati in alcun modo.
Passaggio 2: pulire i dati grezzi
Prima di utilizzare questi dati per creare tabelle riassuntive, grafici o qualsiasi altra cosa, lo scout deve prima rimuovere eventuali valori mancanti e ripulire eventuali valori dei dati “sporchi”.
Ad esempio, potremmo individuare diversi valori nel set di dati che devono essere trasformati o rimossi:
Lo scout può decidere di rimuovere completamente l’ultima riga perché presenta diversi valori mancanti. Può quindi pulire i valori dei caratteri nel set di dati per ottenere i seguenti dati “puliti”:
Passaggio 3: riepilogare i dati
Una volta puliti i dati, lo scout può quindi riassumere ciascuna variabile nel set di dati. Ad esempio, potrebbe calcolare le seguenti statistiche riassuntive per la variabile “Minuti”:
- Media : 24 minuti
- Media : 22 minuti
- Deviazione standard : 9,45 minuti
Passaggio 4: visualizzare i dati
Lo scout può quindi visualizzare le variabili nel set di dati per comprendere meglio i valori dei dati.
Ad esempio, potrebbe creare il seguente grafico a barre per visualizzare il totale dei minuti giocati da ciascun giocatore:
Oppure potrebbe creare il seguente grafico a dispersione per visualizzare la relazione tra i minuti giocati e i punti segnati:
Ciascuno di questi tipi di grafici può aiutarlo a comprendere meglio i dati.
Passaggio 5: utilizzare i dati per creare un modello
Infine, una volta ripuliti i dati, lo scout può decidere di adattare qualche tipo di modello predittivo.
Ad esempio, può adattarsi a un semplice modello di regressione lineare e utilizzare i minuti giocati per prevedere i punti totali segnati da ciascun giocatore.
L’equazione di regressione adattata è:
Punti = 8,7012 + 0,2717*(minuti)
Lo scout potrebbe quindi utilizzare questa equazione per prevedere il numero di punti che un giocatore segnerà in base al numero di minuti giocati. Ad esempio, un atleta che gioca 30 minuti dovrebbe totalizzare 16,85 punti:
Punti = 8,7012 + 0,2717*(30) = 16,85
Risorse addizionali
Perché le statistiche sono importanti?
Perché la dimensione del campione è importante nelle statistiche?
Che cos’è un’osservazione in statistica?
Cosa sono i dati tabulari nelle statistiche?