Hoe gestandaardiseerde residuen in excel te berekenen
Een residu is het verschil tussen een waargenomen waarde en een voorspelde waarde in eenregressiemodel .
Het wordt als volgt berekend:
Residueel = Waargenomen waarde – Voorspelde waarde
Als we de waargenomen waarden uitzetten en de aangepaste regressielijn over elkaar leggen, zijn de residuen voor elke waarneming de verticale afstand tussen de waarneming en de regressielijn:
Eén type residu dat we vaak gebruiken om uitschieters in een regressiemodel te identificeren, wordt een gestandaardiseerd residu genoemd.
Het wordt als volgt berekend:
r ik = e ik / s(e ik ) = e ik / RSE√ 1-h ii
Goud:
- e i : het i- de residu
- RSE: de resterende standaardfout van het model
- h ii : De opkomst van de ide waarneming
In de praktijk beschouwen we vaak elk gestandaardiseerd residu waarvan de absolute waarde groter is dan 3 als een uitbijter.
Deze tutorial biedt een stapsgewijs voorbeeld van hoe u gestandaardiseerde residuen in Excel kunt berekenen.
Stap 1: Voer de gegevens in
Eerst voeren we waarden uit een kleine dataset in Excel in:
Stap 2: Bereken de residuen
Vervolgens gaan we naar het tabblad Gegevens op het bovenste lint en klikken op Gegevensanalyse in de groep Analyse :
Als je deze invoegtoepassing nog niet hebt geïnstalleerd, bekijk dan deze tutorial om te leren hoe. Het is eenvoudig te installeren en volledig gratis.
Nadat u op Gegevensanalyse hebt geklikt, klikt u op de optie Regressie en klikt u vervolgens op OK . In het nieuwe venster dat verschijnt, vult u de volgende gegevens in en klikt u op OK :
Het residu voor elke waarneming verschijnt in het resultaat:
Kopieer en plak deze residuen in een nieuwe kolom naast de originele gegevens:
Stap 3: Bereken de hefboomwerking
Vervolgens moeten we de hefboomwerking van elke waarneming berekenen.
De volgende afbeelding laat zien hoe u dit doet:
Dit zijn de formules die in de verschillende cellen worden gebruikt:
- B14: =AANTAL(B2:B13)
- B15: = GEMIDDELDE (B2: B13)
- B16: =DEVSQ(B2:B13)
- E2: =1/$B$14+(B2-$B$15)^2/$B$16
Stap 4: Bereken gestandaardiseerde residuen
Ten slotte kunnen we de gestandaardiseerde residuen berekenen met behulp van de formule:
r ik = e i / RSE√ 1-h ii
De MVO van het model is terug te vinden in de resultaten van het vorige model. Het blijkt 4.44 te zijn:
We kunnen dus de volgende formule gebruiken om het gestandaardiseerde residu voor elke waarneming te berekenen:
Uit de resultaten kunnen we opmaken dat geen van de gestandaardiseerde residuen een absolute waarde van 3 overschrijdt. Geen van de waarnemingen lijkt dus uitschieters te zijn.
Opgemerkt moet worden dat onderzoekers in sommige gevallen waarnemingen waarvan de gestandaardiseerde residuen een absolute waarde van 2 overschrijden, als uitschieters beschouwen.
Het is aan u of u een absolute waarde van 2 of 3 als drempelwaarde voor uitschieters gebruikt, afhankelijk van het specifieke probleem waaraan u werkt.
Aanvullende bronnen
Wat zijn residuen?
Wat zijn gestandaardiseerde residuen?
Inleiding tot meervoudige lineaire regressie