Données longues ou larges : quelle est la différence ?



Un ensemble de données peut être écrit dans deux formats différents : large et long .

Un format large contient des valeurs qui ne se répètent pas dans la première colonne.

Un format long contient des valeurs qui se répètent dans la première colonne.

Par exemple, considérons les deux ensembles de données suivants qui contiennent exactement les mêmes données exprimées dans des formats différents :

Format de données large ou long

Notez que dans l’ensemble de données étendu , chaque valeur de la première colonne est unique.

En revanche, dans l’ensemble de données long , les valeurs de la première colonne se répètent.

Les deux ensembles de données contiennent exactement les mêmes informations sur les équipes, mais elles sont simplement exprimées dans des formats différents.

Quand utiliser des données larges ou longues

Selon ce que vous souhaitez faire avec vos données, il peut être plus judicieux de les présenter dans un format large ou long.

Quand utiliser le grand format

En règle générale, si vous analysez des données, vous utiliserez généralement un format de données large .

Par exemple, si vous souhaitez connaître la moyenne des points, des passes décisives et des rebonds marqués par équipe, il est souvent plus facile d’avoir les données dans un format large :

La plupart des ensembles de données que vous rencontrez dans le monde réel seront également enregistrés dans un format large, car il est plus facile à interpréter pour notre cerveau.

Par exemple, dans le format ci-dessus, il est facile de lire les valeurs de points, de passes décisives et de rebonds pour chaque équipe sur la même ligne.

Quand utiliser le format long

En règle générale, si vous visualisez plusieurs variables dans un tracé à l’aide d’un logiciel statistique tel que R , vous devez généralement convertir vos données dans un format long pour que le logiciel puisse créer le tracé.

Pour des exemples concrets, consultez ces didacticiels en R dans lesquels les données doivent être dans un format long pour créer certains types de tracés :

Parfois, vous devrez peut-être remodeler vos données dans un format différent si vous utilisez également Python .

Les didacticiels suivants expliquent comment remodeler les blocs de données en Python :

Ressources additionnelles

Les didacticiels suivants fournissent des informations sur d’autres termes statistiques couramment utilisés :

Qu’est-ce qu’une observation en statistique ?
Qu’est-ce qu’une covariable en statistiques ?
Que sont les résidus dans les statistiques ?

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *