Długie czy szerokie dane: jaka jest różnica?
Zbiór danych można zapisać w dwóch różnych formatach: szerokim i długim .
Szeroki format zawiera wartości, które nie powtarzają się w pierwszej kolumnie.
Długi format zawiera wartości, które powtarzają się w pierwszej kolumnie.
Rozważmy na przykład następujące dwa zbiory danych, które zawierają dokładnie te same dane wyrażone w różnych formatach:
Należy pamiętać, że w rozszerzonym zbiorze danych każda wartość w pierwszej kolumnie jest unikatowa.
Natomiast w długim zbiorze danych wartości z pierwszej kolumny powtarzają się.
Obydwa zbiory danych zawierają dokładnie te same informacje o zespole, ale są po prostu wyrażone w różnych formatach.
Kiedy używać szerokich, a kiedy długich danych
W zależności od tego, co chcesz zrobić ze swoimi danymi, bardziej sensowne może być przedstawienie ich w szerokim lub długim formacie.
Kiedy używać dużego formatu
Ogólną zasadą jest to, że jeśli analizujesz dane, zwykle używasz szerokiego formatu danych.
Na przykład, jeśli chcesz poznać średnią punktów, asyst i zbiórek zdobytych przez drużynę, często łatwiej jest mieć dane w dużym formacie:
Większość zestawów danych, które napotykasz w prawdziwym świecie, zostanie również zapisana w szerokim formacie, ponieważ naszym mózgom łatwiej jest je zinterpretować.
Na przykład w powyższym formacie łatwo jest odczytać wartości punktów, asyst i zbiórek dla każdej drużyny w tej samej linii.
Kiedy używać długiego formatu
Zwykle, jeśli przeglądasz wiele zmiennych na wykresie za pomocą oprogramowania statystycznego, takiego jak R , zwykle musisz przekonwertować dane na długi format, aby oprogramowanie mogło utworzyć wykres.
Aby zapoznać się z przykładami z życia codziennego, zapoznaj się z tymi samouczkami języka R, w których dane muszą być w długim formacie, aby utworzyć określone typy wykresów:
- Jak wykreślić wykresy wielu gęstości w R
- Jak wykreślić wiele kolumn w R
- Jak utworzyć mapę cieplną w R
Czasami może być konieczne przekształcenie danych w inny format, jeśli używasz również języka Python .
Poniższe samouczki wyjaśniają, jak zmieniać kształt ramek danych w Pythonie:
- Jak zmienić kształt danych z długich na szerokie w Pythonie
- Jak zmienić kształt danych z szerokich na długie w Pythonie
Dodatkowe zasoby
Poniższe samouczki zawierają informacje na temat innych powszechnie używanych terminów statystycznych:
Co to jest obserwacja w statystyce?
Co to jest współzmienna w statystyce?
Czym są reszty w statystyce?