Een korte introductie tot bivariate analyse
De term bivariate analyse verwijst naar de analyse van twee variabelen. U kunt dit onthouden omdat het voorvoegsel “bi” “twee” betekent.
Het doel van bivariate analyse is om de relatie tussen twee variabelen te begrijpen. U kunt dit type analyse vergelijken met het volgende:
- Univariate analyse : De analyse van één variabele.
- Multivariate analyse: analyse van twee of meer variabelen.
Er zijn drie veelgebruikte manieren om bivariate analyses uit te voeren:
1. Verspreidingsdiagrammen.
2. Correlatiecoëfficiënten.
3. Eenvoudige lineaire regressie.
Deze tutorial geeft een voorbeeld van elk van deze typen bivariate analyse met behulp van de volgende dataset die informatie bevat over twee variabelen: (1) Uren besteed aan studeren en (2) Examenscores behaald door 20 verschillende studenten:
1. Puntenwolken
Een scatterplot biedt een visuele manier om bivariate analyses uit te voeren. Hiermee kunnen we de relatie tussen twee variabelen visualiseren door de waarde van de ene variabele op de x-as te plaatsen en de waarde van de andere variabele op de y-as.
In het onderstaande spreidingsdiagram plaatsen we de bestudeerde uren op de x-as en de examenresultaten op de y-as:
We zien duidelijk dat er een positief verband bestaat tussen beide variabelen: naarmate het aantal studie-uren toeneemt, stijgen ook de examenscores.
2. Correlatiecoëfficiënten
Een correlatiecoëfficiënt biedt een andere manier om bivariate analyses uit te voeren. Het meest voorkomende type correlatiecoëfficiënt is de Pearson-correlatiecoëfficiënt , die een maatstaf is voor de lineaire associatie tussen twee variabelen. Het heeft een waarde tussen -1 en 1 waarbij:
- -1 geeft een perfect negatieve lineaire correlatie aan tussen twee variabelen
- 0 geeft aan dat er geen lineaire correlatie is tussen twee variabelen
- 1 geeft een perfect positieve lineaire correlatie aan tussen twee variabelen
Deze eenvoudige metriek geeft ons een goed idee van hoe twee variabelen met elkaar samenhangen. In de praktijk gebruiken we vaak spreidingsdiagrammen en correlatiecoëfficiënten om de relatie tussen twee variabelen te begrijpen, zodat we hun relatie kunnen visualiseren en kwantificeren.
3. Eenvoudige lineaire regressie
Een derde manier om bivariate analyses uit te voeren is het gebruik vaneenvoudige lineaire regressie .
Met deze methode kiezen we één variabele als verklarende variabele en de andere variabele als responsvariabele . Vervolgens vinden we de rij die het beste „past“ bij de dataset, die we vervolgens kunnen gebruiken om de exacte relatie tussen de twee variabelen te begrijpen.
De best passende rij voor de bovenstaande gegevensset is bijvoorbeeld:
Examenscore = 69,07 + 3,85*(uren gestudeerd)
Dit betekent dat elk extra uur dat je studeerde gepaard gaat met een gemiddelde stijging van de examenscore van 3,85. Door dit lineaire regressiemodel toe te passen, kunnen we de exacte relatie tussen het aantal gestudeerde uren en het examencijfer kwantificeren.
Gerelateerd: Eenvoudige lineaire regressie uitvoeren in Excel
Conclusie
Bivariate analyse is een van de meest gebruikte soorten analyses in de statistiek, omdat we vaak de relatie tussen twee variabelen willen begrijpen.
Met behulp van spreidingsdiagrammen, correlatiecoëfficiënten en eenvoudige lineaire regressie kunnen we de relatie tussen twee variabelen visualiseren en kwantificeren.
Vaak worden deze drie methoden samen gebruikt in een analyse om een compleet beeld te krijgen van de relatie tussen twee variabelen. Het is dus een goed idee om vertrouwd te raken met elke methode.