Come eseguire l'analisi esplorativa dei dati in excel
Uno dei primi passi in qualsiasi progetto di analisi dei dati è l’analisi esplorativa dei dati .
Ciò comporta l’esplorazione di un set di dati in tre modi:
1. Riassumere un insieme di dati utilizzando la statistica descrittiva.
2. Visualizza un insieme di dati utilizzando i grafici.
3. Identificare i valori mancanti.
Eseguendo queste tre azioni, è possibile comprendere come vengono distribuiti i valori in un set di dati e rilevare eventuali valori problematici prima di procedere con il test delle ipotesi , l’adattamento di un modello di regressione o l’esecuzione di modelli statistici.
Il seguente esempio dettagliato mostra come eseguire l’analisi esplorativa dei dati in Excel.
Passaggio 1: crea il set di dati
Innanzitutto, creiamo un semplice set di dati contenente informazioni su 10 diversi giocatori di basket:
Questo set di dati contiene tre variabili (punti, rimbalzi, assist) e alcune variabili hanno valori vuoti o NA, cosa comune nei set di dati del mondo reale.
Passaggio 2: riepilogare i dati
Successivamente, possiamo calcolare i valori medio, mediano, quartile, minimo e massimo per ciascuna delle tre variabili in questo set di dati:
Ecco la formula che abbiamo usato per ogni cella nella colonna B:
- B13 : =MEDIA( B2:B11 )
- B14 : =MEDIANA( B2:B11 )
- B15 : =QUARTILE( B2:B11 , 1)
- B16 : =QUARTILE( B2:B11 , 3)
- B17 : =MIN( B2:B11 )
- B18 : =MAX( B2:B11 )
Abbiamo quindi trascinato ciascuna formula verso destra in modo da poter calcolare le stesse metriche per i valori nelle colonne C e D.
Calcolando queste statistiche descrittive per ciascuna variabile, possiamo ottenere una buona comprensione della distribuzione dei valori per ciascuna variabile.
Nota : ciascuna formula ignora automaticamente i valori vuoti o NA durante il calcolo di ciascuna statistica descrittiva.
Passaggio 3: visualizzare i dati
Possiamo anche creare grafici per visualizzare i valori del set di dati.
Ad esempio, per visualizzare la distribuzione dei valori per la variabile Punti, possiamo evidenziare i valori nell’intervallo di celle B2:B11 , quindi fare clic sulla scheda Inserisci lungo il nastro superiore, quindi fare clic sull’icona Istogramma nel gruppo Grafica :
Verrà creato automaticamente il seguente istogramma:
Questo istogramma permette di visualizzare la distribuzione dei punti segnati dai giocatori.
Ad esempio, possiamo vedere:
- 4 giocatori hanno segnato tra 10 e 15 punti.
- 1 giocatore ha segnato tra 15 e 20 punti.
- 2 giocatori hanno segnato tra 20 e 25 punti.
- 3 giocatori hanno segnato tra 25 e 30 punti.
Possiamo ripetere questo processo per ciascuna variabile nel nostro set di dati per visualizzare la distribuzione dei valori per ciascuna variabile.
Passaggio 4: identificare i valori mancanti
Possiamo anche utilizzare la seguente formula per contare il numero di valori mancanti nella colonna B:
=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))
Possiamo digitare questa formula nella cella B19 , quindi trascinarla verso destra per calcolare il numero di valori mancanti per ciascuna variabile nel set di dati:
Dal risultato possiamo vedere:
- Ci sono 0 valori mancanti nella colonna Punti.
- Ci sono 2 valori mancanti nella colonna Rimbalzi.
- C’è 1 valore mancante nella colonna Aiuti.
Ora abbiamo completato alcune analisi esplorative di base dei dati su questo set di dati e abbiamo acquisito una comprensione abbastanza buona di come sono distribuiti i valori per ciascuna variabile in questo set di dati.
Correlato: Come sostituire le celle vuote con zero in Excel
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre attività comuni in Excel:
Come calcolare un riepilogo di cinque numeri in Excel
Come calcolare la media per gruppo in Excel
Come calcolare il valore massimo per gruppo in Excel