Univariate of multivariate analyse: wat is het verschil?


De term univariate analyse verwijst naar de analyse van één variabele. U kunt dit onthouden omdat het voorvoegsel “uni” “één” betekent.

De term multivariate analyse verwijst naar de analyse van meer dan één variabele. U kunt dit onthouden omdat het voorvoegsel ‘multi’ ‘meer dan één’ betekent.

Er zijn drie veelgebruikte manieren om univariate analyses uit te voeren:

1. Samenvattende statistieken

  • We kunnen metingen van de centrale tendens berekenen, zoals het gemiddelde of de mediaan voor een variabele.
  • We kunnen ook spreidingsmaten berekenen, zoals de standaarddeviatie voor een variabele.

2. Frequentieverdelingen

  • We kunnen een frequentieverdeling maken, die beschrijft hoe vaak elke waarde voor een variabele voorkomt.

3. Afbeeldingen

  • We kunnen grafieken maken zoals boxplots, histogrammen, dichtheidsplots, enz. om de verdeling van waarden van een variabele te visualiseren.

Er zijn twee veelgebruikte manieren om multivariate analyses uit te voeren:

1. Verspreidingsplotmatrix

  • We kunnen een scatterplot-matrix maken, waarmee we de relatie tussen elke paarsgewijze combinatie van variabelen in een dataset kunnen visualiseren.

2. Machine learning-algoritmen

  • We kunnen een algoritme voor begeleid leren gebruiken om in een model te passen, zoals meervoudige lineaire regressie , dat de relatie tussen meerdere voorspellende variabelen en een responsvariabele kwantificeert.
  • We kunnen ook een leeralgoritme zonder toezicht gebruiken, zoals hoofdcomponentenanalyse, om tegelijkertijd de structuur en relaties tussen meerdere variabelen in een dataset te vinden.

De volgende voorbeelden laten zien hoe u univariate en multivariate analyses kunt uitvoeren met de volgende gegevensset:

Opmerking : wanneer u precies twee variabelen analyseert, wordt dit bivariate analyse genoemd.

Voorbeeld: Univariate analyse uitvoeren

We kunnen ervoor kiezen om een univariate analyse uit te voeren op elk van de individuele variabelen in de dataset.

We kunnen er bijvoorbeeld voor kiezen om een univariate analyse uit te voeren op de variabele Huishoudgrootte :

Voorbeeld van univariate analyse

We kunnen de volgende maatstaven voor de centrale tendens van de gezinsgrootte berekenen:

  • Gemiddeld (de gemiddelde waarde): 3.8
  • Mediaan (de gemiddelde waarde): 4

Deze waarden geven ons een idee waar de ‘centrale’ waarde ligt.

We kunnen ook de volgende spreidingsmaten berekenen:

  • Bereik (het verschil tussen max en min): 6
  • Interkwartielschaal (de verdeling van de middelste 50% van de waarden): 2.5
  • Standaardafwijking (een gemiddelde maatstaf voor de spreiding): 1,87

Deze waarden geven ons een idee van de verdeling van de waarden van deze variabele.

We kunnen ook de volgende frequentieverdelingstabel maken om samen te vatten hoe vaak verschillende waarden voorkomen:

We kunnen ook een boxplot maken om de verdeling van waarden volgens de grootte van het huishouden te visualiseren:

Als alternatief kunnen we een histogram maken om de verdeling van waarden te visualiseren:

Door deze metingen te berekenen en deze grafieken te maken, kunnen we beter begrijpen hoe de waarden zijn verdeeld voor de variabele Huishoudgrootte.

Voorbeeld: Multivariate analyse uitvoeren

Laten we opnieuw aannemen dat we dezelfde dataset hebben:

Een eenvoudige vorm van multivariate analyse die we op deze dataset kunnen uitvoeren, is het maken van een scatterplot-matrix . Dit is een matrix die een scatterplot weergeeft voor elke paarsgewijze combinatie van numerieke variabelen in de dataset.

We zouden dit soort matrix kunnen maken om tegelijkertijd de relatie tussen de omvang van het huishouden, het jaarinkomen en het aantal huisdieren in beeld te brengen.

Bron : Bekijk deze tutorial om te zien hoe u een spreidingsdiagrammatrix maakt in R.

Een andere manier om multivariate analyses op deze dataset uit te voeren is door er een meervoudig lineair regressiemodel in te passen. We zouden bijvoorbeeld een regressiemodel kunnen maken dat de omvang van het huishouden en het aantal huisdieren gebruikt om het jaarinkomen te voorspellen.

Bron : Bekijk deze tutorial om te zien hoe u meervoudige lineaire regressie uitvoert in R.

Een andere manier om multivariate analyses op deze dataset uit te voeren is het uitvoeren van een hoofdcomponentenanalyse , waarmee we de onderliggende structuur in de dataset kunnen vinden.

Bron : Bekijk deze tutorial om te zien hoe u een hoofdcomponentanalyse uitvoert in R.

Conclusie

Hier is een korte samenvatting van dit artikel:

  • Univariate analyse is de analyse van één variabele.
  • Multivariate analyse is de analyse van meer dan één variabele.
  • Er zijn verschillende manieren om elk type analyse uit te voeren, afhankelijk van uw einddoel.
  • In de echte wereld voeren we vaak beide soorten analyses uit op één enkele dataset.
  • Univariate analyse stelt ons in staat de verdeling van waarden voor een variabele te begrijpen, terwijl multivariate analyse ons in staat stelt de relatie tussen meerdere variabelen te begrijpen.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert