So führen sie grubbs' tester in r aus
Der Grubbs-Test ist ein statistischer Test, der verwendet werden kann, um das Vorhandensein von Ausreißern in einem Datensatz zu identifizieren.
Um diesen Test verwenden zu können, muss ein Datensatz eine annähernde Normalverteilung aufweisen und mindestens 7 Beobachtungen enthalten.
In diesem Tutorial wird erläutert, wie Sie den Grubbs-Test in R durchführen, um Ausreißer in einem Datensatz zu erkennen.
Beispiel: Grubbs-Test in R
Um den Grubbs-Test in R durchzuführen, können wir die Funktion grubbs.test() aus dem Outliers- Paket verwenden, die die folgende Syntax verwendet:
grubbs.test(x, Typ = 10, Gegenteil = FALSCH, doppelseitig = FALSCH)
Gold:
- x: ein numerischer Vektor von Datenwerten
- Typ: 10 = Test, ob der Maximalwert ein Ausreißer ist, 11 = Test, ob der Minimal- und Maximalwert Ausreißer sind, 20 = Test, ob es zwei Ausreißer an einem Ende gibt
- Gegenteil: Logik, die angibt, ob nicht der Wert mit der größten Abweichung vom Durchschnitt überprüft werden soll, sondern das Gegenteil (der niedrigste, wenn der verdächtigste der höchste ist usw.)
- bilateral: Logischer Wert, der angibt, ob Sie den Test als bilateral behandeln sollten oder nicht
Dieser Test verwendet die folgenden zwei Hypothesen:
H 0 (Nullhypothese): Es gibt keine Ausreißer in den Daten.
H A (Alternativhypothese): Es gibt einen Ausreißer in den Daten.
Das folgende Beispiel veranschaulicht, wie der Grubbs-Test durchgeführt wird, um festzustellen, ob der Maximalwert in einem Datensatz ein Ausreißer ist:
#load Outliers package library(Outliers) #createdata data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40) #perform Grubbs' Test to see if '40' is an outlier grubbs.test(data) # Grubbs test for one outlier # #data:data #G = 2.65990, U = 0.55935, p-value = 0.02398 #alternative hypothesis: highest value 40 is an outlier
Die Teststatistik des Tests ist G = 2,65990 und der entsprechende p-Wert ist p = 0,02398 . Da dieser Wert kleiner als 0,05 ist, lehnen wir die Nullhypothese ab und kommen zu dem Schluss, dass der Maximalwert von 40 ein Ausreißer ist.
Wenn wir stattdessen testen wollten, ob der niedrigste Wert von „5“ ein Ausreißer war, könnten wir den Befehl „gegensatz=TRUE“ verwenden:
#perform Grubbs' Test to see if '5' is an outlier grubbs.test(data, opposite= TRUE ) # Grubbs test for one outlier # #data:data #G = 1.4879, U = 0.8621, p-value = 1 #alternative hypothesis: lowest value 5 is an outlier
Die Teststatistik ist G = 1,4879 und der entsprechende p-Wert ist p = 1 . Da dieser Wert nicht kleiner als 0,05 ist, können wir die Nullhypothese nicht ablehnen. Wir haben keine ausreichenden Beweise dafür, dass der Mindestwert von „5“ ein Ausreißer ist.
Nehmen wir schließlich an, wir haben zwei große Werte an einem Ende des Datensatzes: 40 und 42. Um zu testen, ob diese beiden Werte Ausreißer sind, könnten wir den Grubbs-Test durchführen und type=20 angeben:
#create dataset with two large values at one end: 40 and 42 data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40, 42) #perform Grubbs' Test to see if both 40 and 42 are outliers grubbs.test(data, type=20) # Grubbs test for two outliers # #data: data #U = 0.38111, p-value = 0.01195 #alternative hypothesis: highest values 40, 42 are outliers
Der p-Wert des Tests beträgt 0,01195 . Da dieser Wert kleiner als 0,05 ist, können wir die Nullhypothese ablehnen und daraus schließen, dass wir genügend Beweise haben, um zu sagen, dass die Werte 40 und 42 beide Ausreißer sind.
Wie man mit Ausreißern umgeht
Wenn der Grubbs-Test einen Ausreißer in Ihrem Datensatz identifiziert, haben Sie mehrere Möglichkeiten:
1. Überprüfen Sie noch einmal, dass es sich bei dem Wert nicht um einen Tipp- oder Dateneingabefehler handelt. Manchmal handelt es sich bei Werten, die in Datensätzen als Ausreißer auftauchen, einfach um Tippfehler, die einer Person bei der Dateneingabe unterlaufen sind. Gehen Sie zurück und überprüfen Sie, ob der Wert korrekt eingegeben wurde, bevor Sie weitere Entscheidungen treffen.
2. Weisen Sie dem Ausreißer einen neuen Wert zu . Wenn sich herausstellt, dass der Ausreißer auf einen Tipp- oder Dateneingabefehler zurückzuführen ist, können Sie ihm einen neuen Wert zuweisen, beispielsweise den Mittelwert oder Median des Datensatzes.
3. Entfernen Sie den Ausreißer. Wenn der Wert wirklich ein Ausreißer ist, können Sie ihn entfernen, wenn er erhebliche Auswirkungen auf Ihre Gesamtanalyse hat.