Dati lunghi o larghi: qual è la differenza?
Un set di dati può essere scritto in due formati diversi: wide e long .
Un formato ampio contiene valori che non si ripetono nella prima colonna.
Un formato lungo contiene valori che si ripetono nella prima colonna.
Ad esempio, considera i due set di dati seguenti che contengono esattamente gli stessi dati espressi in formati diversi:
Tieni presente che nel set di dati esteso ogni valore nella prima colonna è univoco.
Al contrario, nel set di dati lungo , i valori nella prima colonna si ripetono.
Entrambi i set di dati contengono esattamente le stesse informazioni sulla squadra, ma sono semplicemente espresse in formati diversi.
Quando utilizzare dati estesi o lunghi
A seconda di cosa vuoi fare con i tuoi dati, potrebbe avere più senso presentarli in un formato ampio o lungo.
Quando utilizzare il grande formato
Come regola generale, se stai analizzando i dati, utilizzerai solitamente un formato dati ampio .
Ad esempio, se vuoi conoscere la media dei punti, degli assist e dei rimbalzi segnati per squadra, spesso è più semplice avere i dati in un formato grande:
Anche la maggior parte dei set di dati che incontri nel mondo reale verranno salvati in un formato di grandi dimensioni perché è più facile da interpretare per il nostro cervello.
Ad esempio, nel formato qui sopra, è facile leggere i valori di punti, assist e rimbalzi per ciascuna squadra sulla stessa riga.
Quando utilizzare il formato lungo
In genere, se si visualizzano più variabili in un grafico utilizzando un software statistico come R , è solitamente necessario convertire i dati in un formato lungo in modo che il software possa creare il grafico.
Per esempi reali, dai un’occhiata a questi tutorial R in cui i dati devono essere in un formato lungo per creare determinati tipi di grafici:
- Come tracciare grafici a densità multipla in R
- Come tracciare più colonne in R
- Come creare una mappa termica in R
A volte potrebbe essere necessario rimodellare i dati in un formato diverso se si utilizza anche Python .
I seguenti tutorial spiegano come rimodellare i frame di dati in Python:
- Come rimodellare i dati da lunghi a larghi in Python
- Come rimodellare i dati da larghi a lunghi in Python
Risorse addizionali
I seguenti tutorial forniscono informazioni su altri termini statistici comunemente utilizzati:
Che cos’è un’osservazione in statistica?
Cos’è una covariata in statistica?
Cosa sono i residui in statistica?