Come eseguire l'analisi esplorativa dei dati in excel


Uno dei primi passi in qualsiasi progetto di analisi dei dati è l’analisi esplorativa dei dati .

Ciò comporta l’esplorazione di un set di dati in tre modi:

1. Riassumere un insieme di dati utilizzando la statistica descrittiva.

2. Visualizza un insieme di dati utilizzando i grafici.

3. Identificare i valori mancanti.

Eseguendo queste tre azioni, è possibile comprendere come vengono distribuiti i valori in un set di dati e rilevare eventuali valori problematici prima di procedere con il test delle ipotesi , l’adattamento di un modello di regressione o l’esecuzione di modelli statistici.

Il seguente esempio dettagliato mostra come eseguire l’analisi esplorativa dei dati in Excel.

Passaggio 1: crea il set di dati

Innanzitutto, creiamo un semplice set di dati contenente informazioni su 10 diversi giocatori di basket:

Questo set di dati contiene tre variabili (punti, rimbalzi, assist) e alcune variabili hanno valori vuoti o NA, cosa comune nei set di dati del mondo reale.

Passaggio 2: riepilogare i dati

Successivamente, possiamo calcolare i valori medio, mediano, quartile, minimo e massimo per ciascuna delle tre variabili in questo set di dati:

Ecco la formula che abbiamo usato per ogni cella nella colonna B:

  • B13 : =MEDIA( B2:B11 )
  • B14 : =MEDIANA( B2:B11 )
  • B15 : =QUARTILE( B2:B11 , 1)
  • B16 : =QUARTILE( B2:B11 , 3)
  • B17 : =MIN( B2:B11 )
  • B18 : =MAX( B2:B11 )

Abbiamo quindi trascinato ciascuna formula verso destra in modo da poter calcolare le stesse metriche per i valori nelle colonne C e D.

Calcolando queste statistiche descrittive per ciascuna variabile, possiamo ottenere una buona comprensione della distribuzione dei valori per ciascuna variabile.

Nota : ciascuna formula ignora automaticamente i valori vuoti o NA durante il calcolo di ciascuna statistica descrittiva.

Passaggio 3: visualizzare i dati

Possiamo anche creare grafici per visualizzare i valori del set di dati.

Ad esempio, per visualizzare la distribuzione dei valori per la variabile Punti, possiamo evidenziare i valori nell’intervallo di celle B2:B11 , quindi fare clic sulla scheda Inserisci lungo il nastro superiore, quindi fare clic sull’icona Istogramma nel gruppo Grafica :

Verrà creato automaticamente il seguente istogramma:

Questo istogramma permette di visualizzare la distribuzione dei punti segnati dai giocatori.

Ad esempio, possiamo vedere:

  • 4 giocatori hanno segnato tra 10 e 15 punti.
  • 1 giocatore ha segnato tra 15 e 20 punti.
  • 2 giocatori hanno segnato tra 20 e 25 punti.
  • 3 giocatori hanno segnato tra 25 e 30 punti.

Possiamo ripetere questo processo per ciascuna variabile nel nostro set di dati per visualizzare la distribuzione dei valori per ciascuna variabile.

Passaggio 4: identificare i valori mancanti

Possiamo anche utilizzare la seguente formula per contare il numero di valori mancanti nella colonna B:

 =SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))

Possiamo digitare questa formula nella cella B19 , quindi trascinarla verso destra per calcolare il numero di valori mancanti per ciascuna variabile nel set di dati:

Dal risultato possiamo vedere:

  • Ci sono 0 valori mancanti nella colonna Punti.
  • Ci sono 2 valori mancanti nella colonna Rimbalzi.
  • C’è 1 valore mancante nella colonna Aiuti.

Ora abbiamo completato alcune analisi esplorative di base dei dati su questo set di dati e abbiamo acquisito una comprensione abbastanza buona di come sono distribuiti i valori per ciascuna variabile in questo set di dati.

Correlato: Come sostituire le celle vuote con zero in Excel

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre attività comuni in Excel:

Come calcolare un riepilogo di cinque numeri in Excel
Come calcolare la media per gruppo in Excel
Come calcolare il valore massimo per gruppo in Excel

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *