Gegroepeerde gegevens
In dit artikel wordt uitgelegd wat gegroepeerde gegevens zijn en hoe gegevens worden gegroepeerd. Daarnaast vindt u een opgeloste oefening waarin de gegevens zijn gegroepeerd op intervallen.
Wat zijn gegroepeerde gegevens?
In de statistiek zijn opgeslagen gegevens gegevens die in intervallen zijn gegroepeerd. Met andere woorden, gegroepeerde gegevens zijn gegevens die met regelmatige tussenpozen worden verzameld, zodat ze samen kunnen worden bestudeerd.
Wanneer een set statistische gegevens wordt gegroepeerd, wordt deze dus opgesplitst in verschillende intervallen, zodat elk stukje gegevens slechts tot één interval kan behoren.
Kort gezegd maakt dataclustering het in de statistiek mogelijk om meerdere gegevens gezamenlijk te analyseren, zodat gegevens die binnen een interval zijn gegroepeerd, als één enkel gegeven worden behandeld. Bovendien is datapooling erg handig als de steekproef erg groot is.
Voorbeeld van gegroepeerde gegevens
Kijkend naar de definitie van gegroepeerde gegevens, vindt u hieronder een concreet voorbeeld van hoe een reeks gegevens in verschillende intervallen is gegroepeerd.
- De steekproefomvang van 50 verschillende mensen werd gemeten en alle waarden werden vastgelegd in de volgende gegevenstabel. Groepeer de gegevensset in intervallen en maak vervolgens een grafiek van de gegevens.
Eerst moeten we de gegevens in intervallen verdelen. Hiervoor zijn veel methoden, maar de regel van Sturges wordt het meest gebruikt, omdat je hiermee het ideale aantal intervallen kunt berekenen:
We moeten de gegevens dus in zeven verschillende intervallen verdelen. We moeten nu de breedte weten die elk interval moet hebben. Om dit te doen, deelt u eenvoudigweg de maximale waarde minus de minimumwaarde door het totale aantal intervallen:
Kortom, er moeten 7 intervallen met amplitude 9 zijn, dus de intervallen berekend volgens de regel van Sturges zijn als volgt:
En zodra we de intervallen hebben berekend, tellen we het aantal keren dat een stukje gegevens in elk interval voorkomt en stellen we een tabel samen met de gegroepeerde gegevens:
Houd er rekening mee dat er nog meer frequentietypen kunnen worden berekend op basis van gegroepeerde gegevens (relatieve frequentie, cumulatieve frequentie, enz.). Om te zien hoe u een volledige frequentietabel met gegroepeerde gegevens kunt maken, klikt u hier:
Ten slotte kunnen we vanuit de tabel met de frequentie van elk interval de gegevens grafisch weergeven, gegroepeerd in een histogram.
Gegroepeerde en niet-gegroepeerde gegevens
Niet-gegroepeerde gegevens zijn gegevens die niet in intervallen zijn onderverdeeld, maar elke waarde afzonderlijk wordt bestudeerd.
Als we het hierboven uitgewerkte voorbeeld zouden volgen, zouden we, als we de gegevens niet hadden gegroepeerd, de frequentie van elke waarde moeten vinden. Dat wil zeggen, we hadden moeten berekenen hoe vaak de waarde 158, 165, 174, etc. wordt herhaald. In dit geval was het echter beter om de gegevens op intervallen te groeperen, omdat we over een grote hoeveelheid gegevens beschikten en bovendien veel waarden vergelijkbaar waren.
Daarom is het tijdens een statistisch onderzoek, voordat er berekeningen worden uitgevoerd, belangrijk om te beslissen of de gegevens al dan niet op intervallen moeten worden gegroepeerd, aangezien dit de rest van het onderzoek zal bepalen.
Wanneer moeten gegevens worden geconsolideerd?
Over het algemeen moeten gegevens in intervallen worden gegroepeerd als de variabele continu is. Als de variabele continu is, hebben we normaal gesproken veel waarden en liggen deze erg dicht bij elkaar, zodat ze in intervallen kunnen worden gegroepeerd om het onderzoek te vereenvoudigen.
Logischerwijs kan de variabele, zelfs als deze niet continu is, als we veel gegevens hebben, ook in intervallen worden gegroepeerd, waardoor statistische analyse eenvoudiger wordt. Maar over het algemeen is het criterium voor het groeperen van gegevens het type variabele: als de variabele continu is, worden de gegevens doorgaans in intervallen gescheiden.