Wat is univariate analyse? (definitie & #038; voorbeeld)
De term univariate analyse verwijst naar de analyse van één variabele. U kunt dit onthouden omdat het voorvoegsel “uni” “één” betekent.
Het doel van univariate analyse is om de verdeling van waarden voor een enkele variabele te begrijpen. U kunt dit type analyse vergelijken met het volgende:
- Bivariate analyse : de analyse van twee variabelen.
- Multivariate analyse: analyse van twee of meer variabelen.
Stel dat we bijvoorbeeld de volgende gegevensset hebben:
We kunnen ervoor kiezen om een univariate analyse uit te voeren op een van de individuele variabelen in de dataset om de distributie van waarden beter te begrijpen.
We kunnen er bijvoorbeeld voor kiezen om een univariate analyse uit te voeren op de variabele Huishoudgrootte :
Er zijn drie veelgebruikte manieren om univariate analyses uit te voeren:
1. Samenvattende statistieken
De meest gebruikelijke manier om univariate analyses uit te voeren is het beschrijven van een variabele met behulp van samenvattende statistieken .
Er zijn twee veelvoorkomende typen samenvattende statistieken:
- Maatregelen voor centrale tendens : deze cijfers beschrijven waar het midden van een dataset zich bevindt. Voorbeelden hiervan zijn gemiddelde en mediaan .
- Verspreidingsmaten : deze cijfers beschrijven de verdeling van waarden in de dataset. Voorbeelden zijn onder meer interval , interkwartielbereik , standaarddeviatie en variantie .
2. Frequentieverdelingen
Een andere manier om univariate analyses uit te voeren is het creëren van een frequentieverdeling , die beschrijft hoe vaak verschillende waarden in een dataset voorkomen.
3. Afbeeldingen
Een andere manier om univariate analyses uit te voeren is het maken van grafieken om de verdeling van waarden voor een bepaalde variabele te visualiseren.
Veel voorkomende voorbeelden zijn:
- Boxplots
- Histogrammen
- Dichtheidscurven
- Camembert
De volgende voorbeelden laten zien hoe u elk type univariate analyse kunt uitvoeren met behulp van de variabele Huishoudgrootte uit onze eerder genoemde dataset:
Samenvattende statistieken
We kunnen de volgende maatstaven voor de centrale tendens van de gezinsgrootte berekenen:
- Gemiddeld (de gemiddelde waarde): 3.8
- Mediaan (de gemiddelde waarde): 4
Deze waarden geven ons een idee waar de ‘centrale’ waarde ligt.
We kunnen ook de volgende spreidingsmaten berekenen:
- Bereik (het verschil tussen max en min): 6
- Interkwartielschaal (de verdeling van de middelste 50% van de waarden): 2.5
- Standaardafwijking (een gemiddelde maatstaf voor de spreiding): 1,87
Deze waarden geven ons een idee van de verdeling van de waarden van deze variabele.
Frequentieverdeling
We kunnen ook de volgende frequentieverdelingstabel maken om samen te vatten hoe vaak verschillende waarden voorkomen:
Hierdoor kunnen we snel zien dat de meest voorkomende huishoudensgrootte 4 personen is.
Hulpbron: U kunt deze frequentiecalculator gebruiken om automatisch een frequentieverdeling voor elke variabele te genereren.
Grafisch
We kunnen de volgende grafieken maken om ons te helpen de verdeling van waarden voor de grootte van het huishouden te visualiseren:
1. Boxplot
Een boxplot is een grafiek die de vijfcijferige samenvatting van een dataset weergeeft.
De samenvatting met vijf cijfers omvat:
- De minimumwaarde
- Het eerste kwartiel
- De gemiddelde waarde
- Het derde kwartiel
- De maximale waarde
Hier ziet u hoe een boxplot voor de variabele Huishoudgrootte eruit zou zien:
Hulpbron: U kunt deze boxplotgenerator gebruiken om automatisch een boxplot voor elke variabele te maken.
2. Histogram
Een histogram is een type diagram dat verticale balken gebruikt om frequenties weer te geven. Dit type diagram is een handige manier om de verdeling van waarden in een dataset te visualiseren.
Hier ziet u hoe een histogram eruit zou zien voor de variabele Huishoudgrootte:
3. Dichtheidscurve
Een dichtheidscurve is een curve in een grafiek die de verdeling van waarden in een reeks gegevens weergeeft.
Het is vooral handig voor het visualiseren van de „vorm“ van een verdeling, inclusief of een verdeling al dan niet een of meer „pieken“ van frequente waarden heeft en ofde verdeling al dan niet naar links of rechts scheef is .
Hier ziet u hoe een dichtheidscurve voor de variabele Huishoudgrootte eruit zou zien:
4. Cirkeldiagram
Een cirkeldiagram is een soort cirkelvormig diagram en gebruikt segmenten om de verhoudingen van een geheel weer te geven.
Hier ziet u hoe een cirkeldiagram eruit zou zien voor de variabele Huishoudgrootte:
Afhankelijk van het type gegevens kan een van deze diagrammen nuttiger zijn dan de andere voor het visualiseren van de verdeling van waarden.