De complete gids: hypothesetesten in r


Een hypothesetest is een formele statistische test die we gebruiken om een statistische hypothese al dan niet te verwerpen.

In deze zelfstudie wordt uitgelegd hoe u de volgende hypothesetests uitvoert in R:

  • Een voorbeeld-t-test
  • T-test met twee monsters
  • Gepaarde monsters t-test

We kunnen de functie t.test() in R gebruiken om elk type test uit te voeren:

 #one sample t-test
t. test (x, y = NULL,
       alternative = c(" two.sided ", " less ", " greater "),
       mu = 0, paired = FALSE, var.equal = FALSE ,
       conf.level = 0.95, …)

Goud:

  • x, y: de twee gegevensmonsters.
  • alternatief: De alternatieve hypothese van de test.
  • mu: De werkelijke waarde van het gemiddelde.
  • gepaard: het al dan niet uitvoeren van een gepaarde t-test.
  • var.equal: of er moet worden aangenomen dat de varianties tussen steekproeven gelijk zijn .
  • conf.level: Het betrouwbaarheidsniveau dat moet worden gebruikt.

De volgende voorbeelden laten zien hoe u deze functie in de praktijk kunt gebruiken.

Voorbeeld 1: T-test met één monster in R

Een one-sample t-test wordt gebruikt om te testen of het gemiddelde van een populatie gelijk is aan een bepaalde waarde.

Laten we bijvoorbeeld zeggen dat we willen weten of het gemiddelde gewicht van een bepaalde schildpadsoort al dan niet 310 pond is. We gaan op pad en verzamelen een eenvoudig willekeurig monster van schildpadden met de volgende gewichten:

Gewicht : 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303

De volgende code laat zien hoe u dit t-testvoorbeeld in R kunt uitvoeren:

 #define vector of turtle weights
turtle_weights <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303)

#perform one sample t-test
t. test (x=turtle_weights,mu=310)

	One Sample t-test

data: turtle_weights
t = -1.5848, df = 12, p-value = 0.139
alternative hypothesis: true mean is not equal to 310
95 percent confidence interval:
 303.4236 311.0379
sample estimates:
mean of x 
 307.2308

Uit het resultaat kunnen we zien:

  • t-teststatistiek: -1,5848
  • Vrijheidsgraden: 12
  • p-waarde: 0,139
  • 95% betrouwbaarheidsinterval voor het werkelijke gemiddelde: [303,4236, 311,0379]
  • gemiddeld gewicht van schildpadden: 307.230

Omdat de p-waarde van de test (0,139) niet kleiner is dan 0,05, slagen we er niet in de nulhypothese te verwerpen.

Dit betekent dat we niet genoeg bewijs hebben om te zeggen dat het gemiddelde gewicht van deze schildpaddensoort iets anders is dan 310 pond.

Voorbeeld 2: T-test met twee steekproeven in R

Een t-test met twee steekproeven wordt gebruikt om te testen of de gemiddelden van twee populaties gelijk zijn of niet.

Stel dat we bijvoorbeeld willen weten of het gemiddelde gewicht van twee verschillende soorten schildpadden gelijk is of niet. Om dit te testen, verzamelen we van elke soort een eenvoudig willekeurig monster van schildpadden met de volgende gewichten:

Monster 1 : 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303

Monster 2 : 335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305

De volgende code laat zien hoe u deze twee t-testvoorbeelden in R kunt uitvoeren:

 #define vector of turtle weights for each sample
sample1 <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303)
sample2 <- c(335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305)

#perform two sample t-tests
t. test (x = sample1, y = sample2)

	Welch Two Sample t-test

data: sample1 and sample2
t = -2.1009, df = 19.112, p-value = 0.04914
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -14.73862953 -0.03060124
sample estimates:
mean of x mean of y 
 307.2308 314.6154

Uit het resultaat kunnen we zien:

  • t-teststatistiek: -2,1009
  • vrijheidsgraden: 19.112
  • p-waarde: 0,04914
  • 95% betrouwbaarheidsinterval voor het werkelijke gemiddelde verschil: [-14,74, -0,03]
  • gemiddeld gewicht van monster 1: 307,2308
  • gemiddeld gewicht van monster 2: 314,6154

Omdat de p-waarde van de test (0,04914) kleiner is dan 0,05, verwerpen we de nulhypothese.

Dit betekent dat we voldoende bewijs hebben om te zeggen dat het gemiddelde gewicht tussen de twee soorten niet gelijk is.

Voorbeeld 3: T-test met gepaarde monsters in R

Een paired samples t-test wordt gebruikt om de gemiddelden van twee monsters te vergelijken wanneer elke waarneming in het ene monster kan worden geassocieerd met een waarneming in het andere monster.

Laten we bijvoorbeeld zeggen dat we willen weten of een bepaald trainingsprogramma al dan niet in staat is om de maximale verticale sprong (in inches) van basketbalspelers te vergroten.

Om dit te testen, kunnen we een eenvoudige willekeurige steekproef van twaalf universiteitsbasketbalspelers rekruteren en elk van hun maximale verticale sprongen meten. Dan kunnen we elke speler een maand lang het trainingsprogramma laten gebruiken en aan het einde van de maand opnieuw zijn maximale verticale sprong meten.

De volgende gegevens tonen de maximale spronghoogte (in inches) voor en na gebruik van het trainingsprogramma voor elke speler:

Voorkant : 22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21

Na : 23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20

De volgende code laat zien hoe u deze t-test met gepaarde monsters in R uitvoert:

 #define before and after max jump heights
before <- c(22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21)
after <- c(23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20)

#perform paired samples t-test
t. test (x = before, y = after, paired = TRUE )

	Paired t-test

data: before and after
t = -2.5289, df = 11, p-value = 0.02803
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.3379151 -0.1620849
sample estimates:
mean of the differences 
                  -1.25

Uit het resultaat kunnen we zien:

  • t-teststatistiek: -2,5289
  • Vrijheidsgraden: 11
  • p-waarde: 0,02803
  • 95% betrouwbaarheidsinterval voor het werkelijke gemiddelde verschil: [-2,34, -0,16]
  • gemiddeld verschil tussen voor en na: -1,25

Omdat de p-waarde van de test (0,02803) kleiner is dan 0,05, verwerpen we de nulhypothese.

Dit betekent dat we voldoende bewijs hebben om te zeggen dat de gemiddelde spronghoogte voor en na gebruik van het trainingsprogramma niet gelijk is.

Aanvullende bronnen

Gebruik de volgende online rekenmachines om automatisch verschillende t-tests uit te voeren:

Een voorbeeld van een t-testcalculator
T-testcalculator met twee steekproeven
Gepaarde voorbeelden t-Test Calculator

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert