Wat wordt beschouwd als een “sterk”; correlatie?
In de statistiek proberen we vaak te begrijpen hoe twee variabelen zich tot elkaar verhouden. We willen bijvoorbeeld graag weten:
- Wat is de relatie tussen het aantal uren dat een student studeert en het cijfer dat hij of zij krijgt op het examen?
- Wat is de relatie tussen de buitentemperatuur en het aantal verkochte ijshoorntjes door een foodtruck?
- Wat is de relatie tussen de uitgegeven marketingdollars en de totale inkomsten die voor een bepaald bedrijf worden verdiend?
In elk van deze scenario’s proberen we de relatie tussen twee verschillende variabelen te begrijpen.
In de statistiek is een van de meest gebruikelijke manieren om een relatie tussen twee variabelen te kwantificeren het gebruik van dePearson-correlatiecoëfficiënt , een maatstaf voor de lineaire associatie tussen twee variabelen . Het heeft een waarde tussen -1 en 1 waarbij:
- -1 geeft een perfect negatieve lineaire correlatie aan tussen twee variabelen
- 0 geeft aan dat er geen lineaire correlatie is tussen twee variabelen
- 1 geeft een perfect positieve lineaire correlatie aan tussen twee variabelen
Vaak aangeduid met r , helpt dit getal ons de sterkte van een relatie tussen twee variabelen te begrijpen. Hoe verder r van nul verwijderd is, hoe sterker de relatie tussen de twee variabelen .
Het is belangrijk op te merken dat twee variabelen een sterke positieve correlatie of een sterke negatieve correlatie kunnen hebben.
Sterke positieve correlatie: wanneer de waarde van de ene variabele toeneemt, neemt de waarde van de andere variabele op dezelfde manier toe. Hoe meer uren een student bijvoorbeeld aan zijn studie besteedt, hoe hoger de examenscore is. Gestudeerde uren en examenscores hebben een sterke positieve correlatie.
Sterke negatieve correlatie: wanneer de waarde van de ene variabele toeneemt, heeft de waarde van de andere variabele de neiging te dalen. Hoe ouder een kip bijvoorbeeld wordt, hoe minder eieren hij produceert. De leeftijd van de kippen en de eierproductie hebben een sterke negatieve correlatie.
De volgende tabel toont de vuistregel voor het interpreteren van de sterkte van het verband tussen twee variabelen op basis van de waarde van r :
Absolute waarde van r | Sterkte van de relatie |
---|---|
r<0,25 | Geen relatie |
0,25 <r<0,5 | Zwakke relatie |
0,5 < r < 0,75 | Matige relaties |
r > 0,75 | Hechte relatie |
De correlatie tussen twee variabelen wordt als sterk beschouwd als de absolute waarde van r groter is dan 0,75 . De definitie van een ‘sterke’ correlatie kan echter van veld tot veld verschillen.
Medisch
Op medisch gebied is de definitie van een ‘sterke’ relatie bijvoorbeeld vaak veel lager. Als de relatie tussen het innemen van een bepaald medicijn en het verminderen van hartaanvallen r = 0,3 is, kan dit op andere gebieden als een ‘zwak positieve’ relatie worden beschouwd, maar in de geneeskunde is het significant genoeg om het de moeite waard te vinden om het medicijn te nemen om de kans op hartaanvallen te verkleinen. een hartaanval krijgen.
Personeelszaken
Op een ander gebied, zoals human resources, zouden lagere correlaties ook vaker kunnen worden gebruikt. Er is bijvoorbeeld aangetoond dat de correlatie tussen universiteitscijfers en werkprestaties ongeveer r = 0,16 bedraagt. Dat is vrij laag, maar het is belangrijk genoeg dat een bedrijf hier op zijn minst rekening mee moet houden tijdens een sollicitatiegesprek.
Technologie
En in een vakgebied als de technologie moet de correlatie tussen variabelen in sommige gevallen mogelijk veel hoger zijn om als ’sterk‘ te worden beschouwd. Als een bedrijf bijvoorbeeld een zelfrijdende auto maakt en de correlatie tussen de afslagbeslissingen van de auto en de kans op een ongeval r = 0,95 is, is dit waarschijnlijk te laag om de auto als veilig te beschouwen, aangezien het resultaat van het maken van een auto-ongeluk zelfrijdende auto is r = 0,95. een slechte beslissing kan fataal zijn.
Bekijk correlaties
Ongeacht in welk vakgebied u werkt, het is handig om een spreidingsdiagram te maken van de twee variabelen die u bestudeert, zodat u op zijn minst de relatie daartussen visueel kunt onderzoeken.
Stel dat we bijvoorbeeld de volgende gegevensset hebben die de lengte en het gewicht van 12 personen weergeeft:
Het is een beetje moeilijk om de relatie tussen deze twee variabelen te begrijpen door alleen naar de onbewerkte gegevens te kijken. Het is echter veel gemakkelijker om de relatie te begrijpen als we een spreidingsdiagram maken met de hoogte op de x-as en het gewicht op de y-as:
Er bestaat duidelijk een positief verband tussen de twee variabelen.
Het creëren van een puntenwolk is om twee andere redenen een goed idee:
(1) Met een spreidingsdiagram kunt u uitschieters identificeren die van invloed zijn op de correlatie.
Een extreme uitbijter kan een Pearson-correlatiecoëfficiënt aanzienlijk veranderen. Beschouw het onderstaande voorbeeld, waarin de variabelen X en Y een Pearson-correlatiecoëfficiënt hebben van r = 0,00 .
Maar stel je nu voor dat we een uitbijter in de dataset hebben:
Deze uitbijter zorgt ervoor dat de correlatie r = 0,878 is. Dit enkele gegevenspunt verandert de correlatie volledig en laat het lijken alsof er een sterke relatie bestaat tussen de variabelen X en Y , terwijl dat in werkelijkheid niet het geval is.
(2) Een spreidingsdiagram kan u helpen niet-lineaire relaties tussen variabelen te identificeren.
Een Pearson-correlatiecoëfficiënt vertelt ons eenvoudigweg of twee variabelen lineair gerelateerd zijn. Maar zelfs als een Pearson-correlatiecoëfficiënt ons vertelt dat twee variabelen niet gecorreleerd zijn, kunnen ze nog steeds een soort niet-lineaire relatie hebben. Dit is nog een reden waarom het nuttig is om een spreidingsdiagram te maken.
Beschouw bijvoorbeeld het onderstaande spreidingsdiagram tussen de variabelen X en Y , waarin hun correlatie r = 0,00 is.
De variabelen hebben duidelijk geen lineair verband, maar wel een niet-lineair verband: de y-waarden zijn simpelweg de x-waarden in het kwadraat. Een correlatiecoëfficiënt alleen zou deze relatie niet kunnen detecteren, maar een spreidingsdiagram wel.
Conclusie
Samengevat:
- Over het algemeen wordt een correlatie groter dan 0,75 beschouwd als een „sterke“ correlatie tussen twee variabelen.
- Deze vuistregel kan echter van gebied tot gebied verschillen. Een veel zwakkere correlatie kan bijvoorbeeld als sterk worden beschouwd op medisch gebied dan op technologisch gebied. Om te bepalen wat als sterk wordt beschouwd, kun je het beste domeinspecifieke expertise gebruiken.
- Wanneer u correlatie gebruikt om de relatie tussen twee variabelen te beschrijven, is het handig om ook een spreidingsdiagram te maken, zodat u uitschieters in de gegevensset kunt identificeren, evenals een potentiële niet-lineaire relatie.
Aanvullende bronnen
Wat wordt beschouwd als een ‘zwakke’ correlatie?
Correlatiematrixcalculator
Hoe een correlatiematrix te lezen