Dati lunghi o larghi: qual è la differenza?


Un set di dati può essere scritto in due formati diversi: wide e long .

Un formato ampio contiene valori che non si ripetono nella prima colonna.

Un formato lungo contiene valori che si ripetono nella prima colonna.

Ad esempio, considera i due set di dati seguenti che contengono esattamente gli stessi dati espressi in formati diversi:

Formato dati ampio o lungo

Tieni presente che nel set di dati esteso ogni valore nella prima colonna è univoco.

Al contrario, nel set di dati lungo , i valori nella prima colonna si ripetono.

Entrambi i set di dati contengono esattamente le stesse informazioni sulla squadra, ma sono semplicemente espresse in formati diversi.

Quando utilizzare dati estesi o lunghi

A seconda di cosa vuoi fare con i tuoi dati, potrebbe avere più senso presentarli in un formato ampio o lungo.

Quando utilizzare il grande formato

Come regola generale, se stai analizzando i dati, utilizzerai solitamente un formato dati ampio .

Ad esempio, se vuoi conoscere la media dei punti, degli assist e dei rimbalzi segnati per squadra, spesso è più semplice avere i dati in un formato grande:

Anche la maggior parte dei set di dati che incontri nel mondo reale verranno salvati in un formato di grandi dimensioni perché è più facile da interpretare per il nostro cervello.

Ad esempio, nel formato qui sopra, è facile leggere i valori di punti, assist e rimbalzi per ciascuna squadra sulla stessa riga.

Quando utilizzare il formato lungo

In genere, se si visualizzano più variabili in un grafico utilizzando un software statistico come R , è solitamente necessario convertire i dati in un formato lungo in modo che il software possa creare il grafico.

Per esempi reali, dai un’occhiata a questi tutorial R in cui i dati devono essere in un formato lungo per creare determinati tipi di grafici:

A volte potrebbe essere necessario rimodellare i dati in un formato diverso se si utilizza anche Python .

I seguenti tutorial spiegano come rimodellare i frame di dati in Python:

Risorse addizionali

I seguenti tutorial forniscono informazioni su altri termini statistici comunemente utilizzati:

Che cos’è un’osservazione in statistica?
Cos’è una covariata in statistica?
Cosa sono i residui in statistica?

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *