Długie czy szerokie dane: jaka jest różnica?


Zbiór danych można zapisać w dwóch różnych formatach: szerokim i długim .

Szeroki format zawiera wartości, które nie powtarzają się w pierwszej kolumnie.

Długi format zawiera wartości, które powtarzają się w pierwszej kolumnie.

Rozważmy na przykład następujące dwa zbiory danych, które zawierają dokładnie te same dane wyrażone w różnych formatach:

Szeroki lub długi format danych

Należy pamiętać, że w rozszerzonym zbiorze danych każda wartość w pierwszej kolumnie jest unikatowa.

Natomiast w długim zbiorze danych wartości z pierwszej kolumny powtarzają się.

Obydwa zbiory danych zawierają dokładnie te same informacje o zespole, ale są po prostu wyrażone w różnych formatach.

Kiedy używać szerokich, a kiedy długich danych

W zależności od tego, co chcesz zrobić ze swoimi danymi, bardziej sensowne może być przedstawienie ich w szerokim lub długim formacie.

Kiedy używać dużego formatu

Ogólną zasadą jest to, że jeśli analizujesz dane, zwykle używasz szerokiego formatu danych.

Na przykład, jeśli chcesz poznać średnią punktów, asyst i zbiórek zdobytych przez drużynę, często łatwiej jest mieć dane w dużym formacie:

Większość zestawów danych, które napotykasz w prawdziwym świecie, zostanie również zapisana w szerokim formacie, ponieważ naszym mózgom łatwiej jest je zinterpretować.

Na przykład w powyższym formacie łatwo jest odczytać wartości punktów, asyst i zbiórek dla każdej drużyny w tej samej linii.

Kiedy używać długiego formatu

Zwykle, jeśli przeglądasz wiele zmiennych na wykresie za pomocą oprogramowania statystycznego, takiego jak R , zwykle musisz przekonwertować dane na długi format, aby oprogramowanie mogło utworzyć wykres.

Aby zapoznać się z przykładami z życia codziennego, zapoznaj się z tymi samouczkami języka R, w których dane muszą być w długim formacie, aby utworzyć określone typy wykresów:

Czasami może być konieczne przekształcenie danych w inny format, jeśli używasz również języka Python .

Poniższe samouczki wyjaśniają, jak zmieniać kształt ramek danych w Pythonie:

Dodatkowe zasoby

Poniższe samouczki zawierają informacje na temat innych powszechnie używanych terminów statystycznych:

Co to jest obserwacja w statystyce?
Co to jest współzmienna w statystyce?
Czym są reszty w statystyce?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *