So führen sie einen t-test für gepaarte stichproben in r durch
Ein T-Test für gepaarte Stichproben ist ein statistischer Test, der die Mittelwerte zweier Stichproben vergleicht, wenn jede Beobachtung aus einer Stichprobe mit einer Beobachtung aus der anderen Stichprobe abgeglichen werden kann.
Nehmen wir zum Beispiel an, wir möchten wissen, ob ein bestimmter Lehrplan einen erheblichen Einfluss auf die Leistung der Schüler bei einer bestimmten Prüfung hat. Um dies zu testen, bitten wir 20 Schüler einer Klasse, einen Vortest zu machen. Anschließend nimmt jeder Studierende zwei Wochen lang täglich am Studienprogramm teil. Anschließend wiederholen die Schüler einen Test mit ähnlichem Schwierigkeitsgrad.
Um die Differenz zwischen den durchschnittlichen Ergebnissen im ersten und zweiten Test zu vergleichen, verwenden wir einen gepaarten T-Test, da für jeden Schüler seine Punktzahl im ersten Test mit seiner Punktzahl im zweiten Test verknüpft werden kann.
So führen Sie einen gepaarten T-Test durch
Um einen gepaarten T-Test durchzuführen, können wir den folgenden Ansatz verwenden:
Schritt 1: Geben Sie die Null- und Alternativhypothese an.
H 0 : μ d = 0
H a : μ d ≠ 0 (zweiseitig)
H a : μ d > 0 (einseitig)
H a : μ d < 0 (einseitig)
wobei μ d die mittlere Differenz ist.
Schritt 2: Finden Sie die Teststatistik und den entsprechenden p-Wert.
Sei a = die Punktzahl des Schülers beim ersten Test und b = die Punktzahl des Schülers beim zweiten Test. Um die Nullhypothese zu testen, dass die wahre mittlere Differenz zwischen den Testergebnissen Null ist:
- Berechnen Sie die Differenz zwischen jedem Bewertungspaar (d i = b i – a i ).
- Berechnen Sie die mittlere Differenz (d)
- Berechnen Sie die Standardabweichung der Differenzen s d
- Berechnen Sie die t-Statistik: T = d / (s d / √n)
- Finden Sie den entsprechenden p-Wert für die t-Statistik mit n-1 Freiheitsgraden.
Schritt 3: Je nach Signifikanzniveau die Nullhypothese ablehnen oder nicht ablehnen.
Wenn der p-Wert kleiner als das gewählte Signifikanzniveau ist, lehnen wir die Nullhypothese ab und kommen zu dem Schluss, dass ein statistisch signifikanter Unterschied zwischen den Mittelwerten der beiden Gruppen besteht. Andernfalls können wir die Nullhypothese nicht ablehnen.
So führen Sie einen gepaarten t-Test in R durch
Um einen gepaarten t-Test in R durchzuführen, können wir die integrierte Funktion t.test() mit der folgenden Syntax verwenden:
t.test (x, y, gepaart = WAHR, alternativ = „zwei Seiten“)
- x,y: die beiden digitalen Vektoren, die wir vergleichen möchten
- gepaart: ein logischer Wert, der angibt, dass wir einen gepaarten t-Test berechnen möchten
- Alternative: die Alternativhypothese. Dies kann auf „doppelseitig“ (Standard), „oben“ oder „unten“ eingestellt werden.
Das folgende Beispiel veranschaulicht, wie ein gepaarter T-Test durchgeführt wird, um zu bestimmen, ob es einen signifikanten Unterschied in den Durchschnittswerten zwischen einem Vortest und einem Nachtest für 20 Schüler gibt.
Erstellen Sie die Daten
Zuerst erstellen wir den Datensatz:
#create the dataset data <- data.frame(score = c(85,85, 78, 78, 92, 94, 91, 85, 72, 97, 84, 95, 99, 80, 90, 88, 95, 90, 96, 89, 84, 88, 88, 90, 92, 93, 91, 85, 80, 93, 97, 100, 93, 91, 90, 87, 94, 83, 92, 95), group = c(rep('pre', 20), rep('post', 20))) #view the dataset data #scoregroup #1 85 pre #2 85 pre #3 78 pre #4 78 pre #5 92 pre #6 94 pre #7 91 pre #8 85 pre #9 72 pre #10 97 pre #11 84 pre #12 95 pre #13 99 pre #14 80 pre #15 90 pre #16 88 pre #17 95 pre #18 90 pre #19 96 pre #20 89 pre #21 84 post #22 88 post #23 88 post #24 90 post #25 92 post #26 93 post #27 91 post #28 85 post #29 80 post #30 93 post #31 97 post #32 100 posts #33 93 post #34 91 post #35 90 post #36 87 post #37 94 post #38 83 post #39 92 post #40 95 post
Visualisieren Sie die Unterschiede
Als nächstes schauen wir uns die zusammenfassenden Statistiken der beiden Gruppen an, indem wir die Funktionen „group_by()“ und „summary ()“ aus der dplyr- Bibliothek verwenden:
#load dplyr library
library(dplyr)
#find sample size, mean, and standard deviation for each group
data %>%
group_by (group) %>%
summarize (
count = n(),
mean = mean(score),
sd = sd(score)
)
# A tibble: 2 x 4
# group count mean sd
#
#1 post 20 90.3 4.88
#2 pre 20 88.2 7.24
Wir können Boxplots auch mit der Funktion boxplot() in R erstellen, um die Verteilung der Ergebnisse für die Vor- und Nachgruppen anzuzeigen:
boxplot (score~group,
data=data,
main="Test Scores by Group",
xlab="Group",
ylab="Score",
col="steelblue",
border="black"
)
Anhand der zusammenfassenden Statistiken und Boxplots können wir erkennen, dass die durchschnittliche Punktzahl in der Post- Gruppe etwas höher ist als die durchschnittliche Punktzahl in der Vorgruppe . Wir können auch sehen, dass die Ergebnisse nach der Gruppe eine geringere Variabilität aufweisen als die Ergebnisse vor der Gruppe.
Um herauszufinden, ob der Unterschied zwischen den Mittelwerten dieser beiden Gruppen statistisch signifikant ist, können wir einen gepaarten t-Test durchführen.
Führen Sie einen gepaarten T-Test durch
Bevor wir den gepaarten t-Test durchführen, müssen wir überprüfen, ob die Verteilung der Differenzen normal (oder annähernd normal) verteilt ist. Dazu können wir einen neuen Vektor erstellen, der als Differenz zwischen den Pre- und Post-Scores definiert ist, und einen Shapiro-Wilk-Test auf Normalität für diesen Wertevektor durchführen:
#define new vector for difference between post and pre scores differences <- with(data, score[group == "post"] - score[group == "pre"]) #perform shapiro-wilk test for normality on this vector of values shapiro.test(differences) # Shapiro-Wilk normality test # #data: differences #W = 0.92307, p-value = 0.1135 #
Der p-Wert des Tests beträgt 0,1135, was größer als Alpha = 0,05 ist. Daher können wir die Nullhypothese, dass unsere Daten normalverteilt sind, nicht zurückweisen. Das bedeutet, dass wir nun mit dem gepaarten t-Test fortfahren können.
Wir können den folgenden Code verwenden, um einen gepaarten T-Test durchzuführen:
t.test (score~group, data = data, paired = TRUE)
# Paired t-test
#
#data: score by group
#t = 1.588, df = 19, p-value = 0.1288
#alternative hypothesis: true difference in means is not equal to 0
#95 percent confidence interval:
# -0.6837307 4.9837307
#sample estimates:
#mean of the differences
#2.15
Aus dem Ergebnis können wir Folgendes erkennen:
- Die T- Test-Statistik beträgt 1,588 .
- Der p-Wert für diese Teststatistik mit 19 Freiheitsgraden (df) beträgt 0,1288 .
- Das 95 %-Konfidenzintervall für die mittlere Differenz beträgt (-0,6837, 4,9837) .
- Die durchschnittliche Differenz zwischen den Ergebnissen der Vor- und Nachgruppe beträgt 2,15 .
Da unser p-Wert also unter unserem Signifikanzniveau von 0,05 liegt, können wir die Nullhypothese, dass die beiden Gruppen statistisch signifikante Mittelwerte haben, nicht zurückweisen.
Mit anderen Worten: Wir haben keine ausreichenden Beweise dafür, dass die Durchschnittswerte zwischen der Vor- und der Nachgruppe statistisch unterschiedlich sind. Dies bedeutet, dass der Lehrplan keinen signifikanten Einfluss auf die Testergebnisse hatte.
Darüber hinaus gibt unser 95 %-Konfidenzintervall an, dass wir „95 % sicher“ sind, dass die tatsächliche mittlere Differenz zwischen den beiden Gruppen zwischen -0,6837 und 4,9837 liegt.
Da in diesem Konfidenzintervall der Wert Null liegt, bedeutet dies, dass Null tatsächlich die wahre Differenz zwischen den Mittelwerten sein könnte, weshalb wir in diesem Fall die Nullhypothese nicht verwerfen konnten.