Correlatie
In dit artikel wordt de betekenis van correlatie tussen twee variabelen uitgelegd, hoe je de correlatiecoëfficiënt kunt berekenen en welke verschillende soorten correlaties er bestaan. Bovendien wordt getoond hoe de waarde van de correlatie tussen twee variabelen moet worden geïnterpreteerd.
Wat is correlatie?
Correlatie is een statistische maatstaf die de mate van relatie tussen twee variabelen aangeeft. Meer specifiek wordt lineaire correlatie gebruikt om de mate van lineaire correlatie tussen twee verschillende variabelen te bepalen.
Er zijn twee variabelen gekoppeld wanneer het veranderen van de waarden van de ene variabele ook de waarden van de andere variabele verandert. Als het verhogen van variabele A bijvoorbeeld ook variabele B doet toenemen, is er een correlatie tussen variabelen A en B.
Soorten correlatie
Afhankelijk van de relatie tussen twee willekeurige variabelen worden de volgende soorten lineaire correlatie onderscheiden:
- Directe correlatie (of positieve correlatie) : de ene variabele neemt toe als de andere ook toeneemt.
- Inverse correlatie (of negatieve correlatie) : wanneer de ene variabele toeneemt, neemt de andere af, en omgekeerd: als de ene variabele afneemt, neemt de andere toe.
- Nulcorrelatie (geen correlatie) : er is geen verband tussen de twee variabelen.
Houd er rekening mee dat dit de verschillende soorten lineaire correlatie zijn die er bestaan, maar het kan ook zijn dat de wiskundige relatie tussen twee variabelen niet kan worden weergegeven door een rechte lijn, maar in plaats daarvan een complexere functie moet gebruiken, zoals een gelijkenis. of een logaritme. In dit geval zou er sprake zijn van een niet-lineaire correlatie .
Correlatiecoëfficiënt
Laten we, rekening houdend met de definitie van correlatie en de verschillende soorten correlatie die er bestaan, eens kijken hoe deze statistische waarde wordt berekend.
De correlatiecoëfficiënt , ook wel lineaire correlatiecoëfficiënt of Pearson-correlatiecoëfficiënt genoemd, is de waarde van de correlatie tussen twee variabelen.
De correlatiecoëfficiënt van twee statistische variabelen is gelijk aan het quotiënt tussen de covariantie van de variabelen en de vierkantswortel van het product van de variantie van elke variabele. Daarom is de formule voor het berekenen van de correlatiecoëfficiënt als volgt:
Bij het berekenen van de correlatiecoëfficiënt voor een populatie is het correlatiesymbool de Griekse letter ρ. Maar wanneer de coëfficiënt wordt berekend ten opzichte van een monster, wordt meestal de letter r als symbool gebruikt.
De waarde van de correlatie-index kan tussen -1 en +1 liggen. Hieronder zullen we zien hoe de waarde van de correlatiecoëfficiënt wordt geïnterpreteerd.
Een concreet voorbeeld van hoe de correlatiecoëfficiënt wordt berekend, ziet u in de volgende link:
Houd er rekening mee dat er andere soorten correlatiecoëfficiënten zijn, zoals de correlatiecoëfficiënt van Spearman of Kendall. Maar de meest voorkomende is ongetwijfeld de Pearson-correlatiecoëfficiënt.
De correlatie interpreteren
De waarde van de correlatiecoëfficiënt kan variëren van -1 tot en met +1. Afhankelijk van de waarde van de correlatiecoëfficiënt betekent dit dus dat de relatie tussen de twee variabelen in de ene of de andere richting ligt. Zo interpreteert u de correlatiewaarde :
- r=-1 : de twee variabelen hebben een perfecte negatieve correlatie, dus we kunnen een lijn tekenen met een negatieve helling waarin alle punten met elkaar verbonden zijn.
- -1<r<0 : de correlatie tussen de twee variabelen is negatief, dus als de ene variabele toeneemt, neemt de andere af. Hoe dichter de waarde bij -1 ligt, hoe negatiever de variabelen gerelateerd zijn.
- r=0 : de correlatie tussen de twee variabelen is erg zwak; de lineaire relatie daartussen is zelfs nul. Dit betekent niet dat de variabelen onafhankelijk zijn, aangezien ze een niet-lineair verband kunnen hebben.
- 0<r<1 : de correlatie tussen de twee variabelen is positief, hoe dichter de waarde bij +1 ligt, hoe sterker de relatie tussen de variabelen. In dit geval heeft de ene variabele de neiging zijn waarde te verhogen wanneer de andere ook toeneemt.
- r=1 : de twee variabelen hebben een perfecte positieve correlatie, dat wil zeggen, ze hebben een positieve lineaire relatie.
Zoals je in de bovenstaande spreidingsdiagrammen kunt zien, geldt: hoe sterker de correlatie tussen twee variabelen, hoe dichter de punten in de grafiek bij elkaar liggen. Aan de andere kant, als de punten erg ver uit elkaar liggen, betekent dit dat de correlatie zwak is.
Houd er rekening mee dat zelfs als er een correlatie bestaat tussen twee variabelen, dit niet betekent dat er causaliteit tussen beide variabelen bestaat, dat wil zeggen dat de correlatie tussen twee variabelen niet betekent dat de verandering in de ene variabele de oorzaak is van de verandering in de andere. variabel.
Als we bijvoorbeeld ontdekken dat er een positieve relatie bestaat tussen de productie van twee verschillende hormonen door het lichaam, betekent dit niet noodzakelijkerwijs dat een toename van het ene hormoon leidt tot een toename van het andere hormoon. Het kan zijn dat het lichaam beide hormonen produceert omdat het beide nodig heeft om een ziekte te bestrijden en daarom de niveaus van beide tegelijkertijd verhoogt, in welk geval de oorzaak de ziekte zou zijn. Om te bepalen of er een causaal verband bestaat tussen de twee hormonen, zou een gedetailleerder onderzoek moeten worden uitgevoerd.
Correlatie en regressie
Correlatie en regressie zijn twee algemeen verwante concepten, omdat beide worden gebruikt om de relatie tussen twee variabelen te analyseren.
Correlatie is een statistische maatstaf die de relatie tussen twee variabelen kwantificeert. Regressie houdt echter in dat er een vergelijking wordt gemaakt (als het een lineaire regressie is, zal het een rechte lijn zijn) waardoor de twee variabelen met elkaar in verband kunnen worden gebracht.
Correlatie geeft dus eenvoudigweg een numerieke waarde aan de relatie tussen variabelen, terwijl regressie kan worden gebruikt om te proberen de waarde van de ene variabele ten opzichte van de andere te voorspellen.
Over het algemeen analyseren we eerst of de variabelen gecorreleerd zijn door de correlatiecoëfficiënt te berekenen. En als de correlatie significant is, voeren we een regressie van de dataset uit.
Het is gebruikelijk om de correlatiecoëfficiënt te verwarren met de waarde van de helling van de lijn die wordt verkregen bij lineaire regressie, maar deze zijn niet gelijkwaardig.
Correlatiematrix
De correlatiematrix is een matrix die op positie i,j de correlatiecoëfficiënt bevat tussen de variabelen i en j .
Daarom is de correlatiematrix een vierkante matrix gevuld met enen op de hoofddiagonaal en bestaat het element van rij i en kolom j uit de waarde van de correlatiecoëfficiënt tussen variabele i en variabele j .
De formule voor de correlatiematrix is dus als volgt:
Goud
is de correlatiecoëfficiënt tussen de variabelen
En
De correlatiematrix is erg handig voor het samenvatten van resultaten en het vergelijken van de correlatie tussen meerdere variabelen tegelijk, omdat je snel ziet welke relaties sterk zijn.