Hoe gestandaardiseerde residuen in excel te berekenen


Een residu is het verschil tussen een waargenomen waarde en een voorspelde waarde in eenregressiemodel .

Het wordt als volgt berekend:

Residueel = Waargenomen waarde – Voorspelde waarde

Als we de waargenomen waarden uitzetten en de aangepaste regressielijn over elkaar leggen, zijn de residuen voor elke waarneming de verticale afstand tussen de waarneming en de regressielijn:

Voorbeeld van residu in statistieken

Eén type residu dat we vaak gebruiken om uitschieters in een regressiemodel te identificeren, wordt een gestandaardiseerd residu genoemd.

Het wordt als volgt berekend:

r ik = e ik / s(e ik ) = e ik / RSE√ 1-h ii

Goud:

  • e i : het i- de residu
  • RSE: de resterende standaardfout van het model
  • h ii : De opkomst van de ide waarneming

In de praktijk beschouwen we vaak elk gestandaardiseerd residu waarvan de absolute waarde groter is dan 3 als een uitbijter.

Deze tutorial biedt een stapsgewijs voorbeeld van hoe u gestandaardiseerde residuen in Excel kunt berekenen.

Stap 1: Voer de gegevens in

Eerst voeren we waarden uit een kleine dataset in Excel in:

Stap 2: Bereken de residuen

Vervolgens gaan we naar het tabblad Gegevens op het bovenste lint en klikken op Gegevensanalyse in de groep Analyse :

Als je deze invoegtoepassing nog niet hebt geïnstalleerd, bekijk dan deze tutorial om te leren hoe. Het is eenvoudig te installeren en volledig gratis.

Nadat u op Gegevensanalyse hebt geklikt, klikt u op de optie Regressie en klikt u vervolgens op OK . In het nieuwe venster dat verschijnt, vult u de volgende gegevens in en klikt u op OK :

Het residu voor elke waarneming verschijnt in het resultaat:

Residuen in Excel

Kopieer en plak deze residuen in een nieuwe kolom naast de originele gegevens:

Stap 3: Bereken de hefboomwerking

Vervolgens moeten we de hefboomwerking van elke waarneming berekenen.

De volgende afbeelding laat zien hoe u dit doet:

Gebruik maken van berekeningen in Excel voor statistieken

Dit zijn de formules die in de verschillende cellen worden gebruikt:

  • B14: =AANTAL(B2:B13)
  • B15: = GEMIDDELDE (B2: B13)
  • B16: =DEVSQ(B2:B13)
  • E2: =1/$B$14+(B2-$B$15)^2/$B$16

Stap 4: Bereken gestandaardiseerde residuen

Ten slotte kunnen we de gestandaardiseerde residuen berekenen met behulp van de formule:

r ik = e i / RSE√ 1-h ii

De MVO van het model is terug te vinden in de resultaten van het vorige model. Het blijkt 4.44 te zijn:

We kunnen dus de volgende formule gebruiken om het gestandaardiseerde residu voor elke waarneming te berekenen:

Gestandaardiseerde residuen in Excel

Uit de resultaten kunnen we opmaken dat geen van de gestandaardiseerde residuen een absolute waarde van 3 overschrijdt. Geen van de waarnemingen lijkt dus uitschieters te zijn.

Opgemerkt moet worden dat onderzoekers in sommige gevallen waarnemingen waarvan de gestandaardiseerde residuen een absolute waarde van 2 overschrijden, als uitschieters beschouwen.

Het is aan u of u een absolute waarde van 2 of 3 als drempelwaarde voor uitschieters gebruikt, afhankelijk van het specifieke probleem waaraan u werkt.

Aanvullende bronnen

Wat zijn residuen?
Wat zijn gestandaardiseerde residuen?
Inleiding tot meervoudige lineaire regressie

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert