Lange of brede data: wat is het verschil?


Een dataset kan in twee verschillende formaten worden geschreven: breed en lang .

Een breed formaat bevat waarden die niet herhalen in de eerste kolom.

Een lang formaat bevat waarden die in de eerste kolom worden herhaald .

Beschouw bijvoorbeeld de volgende twee datasets die exact dezelfde gegevens bevatten, uitgedrukt in verschillende formaten:

Breed of lang gegevensformaat

Houd er rekening mee dat in de uitgebreide gegevensset elke waarde in de eerste kolom uniek is.

In de lange dataset daarentegen herhalen de waarden in de eerste kolom.

Beide datasets bevatten exact dezelfde teaminformatie, maar worden eenvoudigweg in verschillende formaten uitgedrukt.

Wanneer moet u brede of lange gegevens gebruiken?

Afhankelijk van wat u met uw gegevens wilt doen, kan het zinvoller zijn om deze in een breed of lang formaat te presenteren.

Wanneer moet u grootformaat gebruiken?

Als algemene regel geldt dat als u gegevens analyseert, u doorgaans een breed gegevensformaat gebruikt.

Als je bijvoorbeeld de gemiddelde punten, assists en rebounds per team wilt weten, is het vaak gemakkelijker om de gegevens in een groot formaat te hebben:

De meeste datasets die je in de echte wereld tegenkomt, worden ook in een breed formaat opgeslagen, omdat deze voor onze hersenen gemakkelijker te interpreteren zijn.

In het bovenstaande formaat is het bijvoorbeeld gemakkelijk om de punten-, assists- en rebounds-waarden voor elk team op dezelfde lijn af te lezen.

Wanneer moet u een lang formaat gebruiken?

Als u meerdere variabelen in een plot bekijkt met behulp van statistische software zoals R , moet u doorgaans uw gegevens naar een lang formaat converteren, zodat de software de plot kan maken.

Voor praktijkvoorbeelden kunt u deze R-tutorials raadplegen, waarin gegevens in een lang formaat moeten staan om bepaalde typen plots te kunnen maken:

Soms moet u uw gegevens mogelijk in een ander formaat omvormen als u ook Python gebruikt.

In de volgende tutorials wordt uitgelegd hoe u dataframes in Python opnieuw vormgeeft:

Aanvullende bronnen

De volgende tutorials bieden informatie over andere veelgebruikte statistische termen:

Wat is een observatie in de statistiek?
Wat is een covariaat in de statistiek?
Wat zijn residuen in de statistiek?

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert