Lange oder breite daten: was ist der unterschied?


Ein Datensatz kann in zwei verschiedenen Formaten geschrieben werden: Wide und Long .

Ein breites Format enthält Werte, die sich in der ersten Spalte nicht wiederholen.

Ein Langformat enthält Werte, die sich in der ersten Spalte wiederholen .

Betrachten Sie beispielsweise die folgenden zwei Datensätze, die genau dieselben Daten in unterschiedlichen Formaten enthalten:

Breites oder langes Datenformat

Beachten Sie, dass im erweiterten Datensatz jeder Wert in der ersten Spalte eindeutig ist.

Im langen Datensatz hingegen wiederholen sich die Werte in der ersten Spalte.

Beide Datensätze enthalten genau die gleichen Teaminformationen, werden jedoch lediglich in unterschiedlichen Formaten ausgedrückt.

Wann sollten Wide- oder Long-Daten verwendet werden?

Je nachdem, was Sie mit Ihren Daten machen möchten, kann es sinnvoller sein, sie im Breit- oder Langformat darzustellen.

Wann sollte man Großformat verwenden?

Wenn Sie Daten analysieren, verwenden Sie in der Regel ein breites Datenformat.

Wenn Sie beispielsweise die durchschnittlichen Punkte, Assists und Rebounds einer Mannschaft wissen möchten, ist es oft einfacher, die Daten in einem großen Format zu haben:

Die meisten Datensätze, auf die Sie in der realen Welt stoßen, werden auch in einem Breitformat gespeichert, da sie für unser Gehirn einfacher zu interpretieren sind.

Im obigen Format ist es beispielsweise einfach, die Punkte-, Assists- und Rebounds-Werte für jedes Team auf derselben Zeile abzulesen.

Wann sollte das Langformat verwendet werden?

Wenn Sie mit Statistiksoftware wie R mehrere Variablen in einem Diagramm anzeigen, müssen Sie Ihre Daten normalerweise in ein Langformat konvertieren, damit die Software das Diagramm erstellen kann.

Beispiele aus der Praxis finden Sie in diesen R-Tutorials, in denen Daten in einem langen Format vorliegen müssen, um bestimmte Diagrammtypen zu erstellen:

Manchmal müssen Sie Ihre Daten möglicherweise in ein anderes Format umwandeln, wenn Sie auch Python verwenden.

Die folgenden Tutorials erklären, wie man Datenrahmen in Python umformt:

Zusätzliche Ressourcen

Die folgenden Tutorials bieten Informationen zu weiteren häufig verwendeten statistischen Begriffen:

Was ist eine Beobachtung in der Statistik?
Was ist eine Kovariate in der Statistik?
Was sind Residuen in der Statistik?

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert