Zgrupowane dane
W tym artykule wyjaśniono, czym są pogrupowane dane i w jaki sposób dane są grupowane. Dodatkowo znajdziesz rozwiązane ćwiczenie, w którym dane grupowane są według przedziałów.
Co to są pogrupowane dane?
W statystykach dane podzielone na kategorie to dane pogrupowane w interwały. Innymi słowy, dane pogrupowane to dane gromadzone w regularnych odstępach czasu, dzięki czemu można je wspólnie badać.
Zatem grupując zbiór danych statystycznych, dzieli się go na różne przedziały, tak aby każdy fragment danych mógł należeć tylko do jednego przedziału.
Krótko mówiąc, w statystyce grupowanie danych umożliwia łączną analizę wielu danych, dzięki czemu dane pogrupowane w określonym przedziale są traktowane jako pojedynczy fragment danych. Ponadto łączenie danych jest bardzo przydatne, gdy próbka jest bardzo duża.
Przykład pogrupowanych danych
Patrząc na definicję pogrupowanych danych, poniżej znajduje się konkretny przykład pogrupowania zbioru danych w różne przedziały.
- Zmierzono wielkość próby 50 różnych osób i wszystkie wartości zapisano w poniższej tabeli danych. Pogrupuj zbiór danych w przedziały, a następnie wykreśl dane.
Najpierw musimy podzielić dane na przedziały. Metod jest na to wiele, ale najczęściej stosowana jest reguła Sturgesa, ponieważ pozwala ona obliczyć idealną liczbę przedziałów:
Musimy więc podzielić dane na siedem różnych przedziałów. Musimy teraz znać szerokość, jaką musi mieć każdy przedział. Aby to zrobić, po prostu podziel wartość maksymalną minus wartość minimalna przez całkowitą liczbę przedziałów:
W skrócie musi być 7 przedziałów o amplitudzie 9, więc przedziały obliczone według reguły Sturgesa są następujące:
Kiedy już obliczymy przedziały, liczymy, ile razy dane pojawiają się w każdym przedziale, i konstruujemy tabelę z pogrupowanymi danymi:
Należy pamiętać, że na podstawie pogrupowanych danych można obliczyć jeszcze więcej typów częstotliwości (częstotliwość względna, częstotliwość skumulowana itp.). Aby zobaczyć jak utworzyć kompletną tabelę częstości z pogrupowanymi danymi, kliknij tutaj:
Wreszcie, z tabeli z częstotliwością każdego przedziału, możemy wykreślić dane pogrupowane w histogram.
Dane pogrupowane i niezgrupowane
Dane niezgrupowane to dane, które nie są podzielone na przedziały, ale każda wartość jest badana osobno.
Kierując się powyższym przykładem, gdybyśmy nie pogrupowali danych, musielibyśmy znaleźć częstotliwość każdej wartości. Oznacza to, że powinniśmy byli obliczyć, ile razy wartość 158, 165, 174 itd. jest powtorzone. Jednak w tym przypadku lepiej było pogrupować dane interwałowo, gdyż mieliśmy dużą ilość danych, a w dodatku wiele wartości było podobnych.
Dlatego w trakcie badania statystycznego, przed wykonaniem obliczeń, ważne jest podjęcie decyzji, czy dane należy pogrupować według przedziałów, czy też nie, gdyż od tego będzie zależeć dalsza część badania.
Kiedy należy konsolidować dane?
Ogólnie rzecz biorąc, dane powinny być grupowane w przedziały, gdy zmienna jest ciągła. Jeśli zmienna jest ciągła, zwykle mamy wiele wartości i są one bardzo blisko siebie, więc można je pogrupować w przedziały, aby uprościć badanie.
Logicznie rzecz biorąc, nawet jeśli zmienna nie jest ciągła, jeśli mamy dużo danych, można ją również pogrupować w przedziały, co ułatwia analizę statystyczną. Generalnie jednak kryterium grupowania danych jest rodzaj zmiennej: jeśli zmienna jest ciągła, dane są zazwyczaj dzielone na przedziały.