Wat is een invloedrijke observatie in de statistiek?
In de statistiek is een invloedrijke observatie een observatie in een dataset die, indien verwijderd, de coëfficiëntschattingen van een regressiemodel aanzienlijk verandert.
De meest gebruikelijke manier om de invloed van waarnemingen te meten is door Cook’s afstand te gebruiken, die kwantificeert hoeveel alle gepaste waarden in een regressiemodel veranderen wanneer de i -de waarneming wordt verwijderd.
Over het algemeen wordt elke waarneming met een Cook-afstand groter dan 1 beschouwd als een waarneming met een hoge hefboomwerking.
Het volgende voorbeeld laat zien hoe u de afstand van Cook voor een bepaalde dataset kunt berekenen en interpreteren om potentieel invloedrijke waarnemingen te detecteren.
Voorbeeld: detectie van invloedrijke waarnemingen
Stel dat we de volgende gegevensset hebben met 14 waarden:
Stel nu dat we een eenvoudig lineair regressiemodel toepassen. Het regressieresultaat wordt hieronder weergegeven:
Met behulp van statistische software kunnen we voor elke waarneming de volgende waarden voor Cook’s afstand berekenen:
Merk op dat de laatste waarneming een waarde heeft die aanzienlijk groter is dan 1 voor de afstand van Cook, wat ons vertelt dat het een invloedrijke waarneming is.
Stel dat we deze waarde uit de dataset verwijderen en er een nieuw eenvoudig lineair regressiemodel in passen. De output van dit model wordt hieronder weergegeven:
Merk op dat de regressiecoëfficiënten voor het snijpunt en x beide dramatisch zijn veranderd. Dit vertelt ons dat het verwijderen van de invloedrijke observatie uit de dataset het gepaste regressiemodel volledig veranderde.
De volgende grafieken tonen het verschil tussen deze twee aangepaste regressievergelijkingen:
Merk op hoeveel de enkele invloedrijke observatie de regressielijn verandert. Door deze observatie te verwijderen, konden we een regressielijn vinden die veel beter bij de gegevens paste.
Opmerkingen
Het is belangrijk op te merken dat de afstand van Cook moet worden gebruikt om potentieel invloedrijke waarnemingen te identificeren . Het feit dat een waarneming invloedrijk is, betekent echter niet noodzakelijkerwijs dat deze uit de dataset moet worden verwijderd.
Eerst moet u verifiëren dat de waarneming niet het gevolg is van een gegevensinvoerfout of een andere vreemde gebeurtenis. Als het een legitieme waarde blijkt te zijn, kunt u besluiten deze op een van de volgende manieren te behandelen:
- Verwijder het uit de gegevensset.
- Laat het in de dataset staan.
- Vervang deze door een alternatieve waarde, zoals het gemiddelde of de mediaan.
Afhankelijk van uw specifieke scenario kan een van deze opties zinvoller zijn dan de andere.
Hoe u de koksafstand in de praktijk kunt berekenen
In de volgende tutorials wordt uitgelegd hoe u de afstand van Cook voor een bepaalde dataset in Python en R kunt berekenen:
Hoe de afstand van Cook in Python te berekenen
Hoe de Cook’s afstand in R te berekenen