Hoe de mahalanobis-afstand in spss te berekenen


De Mahalanobis-afstand is de afstand tussen twee punten in een multivariate ruimte. Het wordt vaak gebruikt om uitschieters te detecteren in statistische analyses waarbij meerdere variabelen betrokken zijn.

In deze tutorial wordt uitgelegd hoe u de Mahalanobis-afstand in SPSS kunt berekenen.

Voorbeeld: Mahalanobis-afstand in SPSS

Stel dat we de volgende dataset hebben die de examenscores van twintig studenten weergeeft, samen met het aantal uren dat ze aan studeren hebben besteed, het aantal oefenexamens dat ze hebben afgelegd en hun huidige cijfer in de cursus:

We kunnen de volgende stappen gebruiken om de Mahalanobis-afstand voor elke waarneming in de dataset te berekenen om te bepalen of er multivariate uitbijters zijn.

Stap 1: Selecteer de optie Lineaire regressie.

Klik op het tabblad Analyseren , vervolgens op Regressie en vervolgens op Lineair :

Stap 2: Selecteer de optie Mahalanobis.

Sleep de score van de responsvariabele naar het vak met het label Afhankelijk. Sleep de andere drie voorspellende variabelen naar het vak met de naam Independent(s). Klik vervolgens op de knop Opslaan . Zorg ervoor dat in het nieuwe venster dat verschijnt het vakje naast Mahalanobis is aangevinkt. Klik vervolgens op Doorgaan . Klik vervolgens op OK .

Mahalanobis-afstand in SPSS

Zodra u op OK klikt, verschijnt de Mahalanobis-afstand voor elke waarneming in de dataset in een nieuwe kolom met de titel MAH_1 :

We kunnen zien dat sommige afstanden veel groter zijn dan andere. Om te bepalen of een van de afstanden statistisch significant is, moeten we hun p-waarden berekenen.

Stap 3: Bereken de p-waarden van elke Mahalanobis-afstand.

Klik op het tabblad Transformatie en klik vervolgens op Variabele berekenen .

Kies in het vak Doelvariabele een nieuwe naam voor de variabele die u maakt. Wij hebben het over ‘pvalue’. Voer in het vak Numerieke expressie het volgende in:

1 – CDF.CHISQ(MAH_1, 3)

Klik vervolgens op OK .

Dit levert een p-waarde op die overeenkomt met de Chi-kwadraatwaarde met 3 vrijheidsgraden. We gebruiken 3 vrijheidsgraden omdat er 3 voorspellende variabelen in ons regressiemodel zijn.

Stap 4: Interpreteer de p-waarden.

Zodra u op OK klikt, wordt de p-waarde voor elke Mahalanobis-afstand in een nieuwe kolom weergegeven:

P-waarden voor Mahalanobis-afstand in SPSS

Standaard geeft SPSS alleen p-waarden met twee decimalen weer. U kunt het aantal decimalen verhogen door op Variabelen weergeven onderaan SPSS te klikken en het aantal decimalen in de kolom Decimalen te verhogen:

Zodra u terugkeert naar de gegevensweergave , ziet u elke p-waarde weergegeven met vijf decimalen. Elke p-waarde kleiner dan 0,001 wordt als een uitbijter beschouwd.

We kunnen zien dat de eerste waarneming de enige uitbijter in de dataset is, omdat deze een p-waarde van minder dan 0,001 heeft:

Hoe om te gaan met uitschieters

Als er een uitbijter in uw gegevens aanwezig is, heeft u verschillende opties:

1. Zorg ervoor dat de uitbijter niet het gevolg is van een gegevensinvoerfout.

Soms voert een individu eenvoudigweg de verkeerde gegevenswaarde in terwijl hij de gegevens opslaat. Als er een uitbijter aanwezig is, controleer dan eerst of de gegevenswaarde correct is ingevoerd en dat er geen sprake is van een fout.

2. Verwijder de uitbijter.

Als de waarde echt een uitschieter is, kunt u ervoor kiezen deze te verwijderen als deze een aanzienlijke impact heeft op uw algehele analyse. Zorg ervoor dat u in uw eindrapport of analyse vermeldt dat u een uitbijter hebt verwijderd.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert