Kompletny przewodnik: testowanie hipotez w r


Test hipotezy to formalny test statystyczny, którego używamy do odrzucenia lub nieodrzucenia hipotezy statystycznej.

W tym samouczku wyjaśniono, jak wykonać następujące testy hipotez w języku R:

  • Próbny test t
  • Test T dla dwóch próbek
  • Test t dla sparowanych próbek

Możemy użyć funkcji t.test() w R, aby wykonać każdy typ testu:

 #one sample t-test
t. test (x, y = NULL,
       alternative = c(" two.sided ", " less ", " greater "),
       mu = 0, paired = FALSE, var.equal = FALSE ,
       conf.level = 0.95, …)

Złoto:

  • x, y: dwie próbki danych.
  • alternatywa: alternatywna hipoteza testu.
  • mu: Prawdziwa wartość średniej.
  • sparowany: czy wykonać test t dla par.
  • var.equal: czy założyć, że wariancje są równe pomiędzy próbkami.
  • conf.level: poziom ufności, który ma zostać użyty.

Poniższe przykłady pokazują, jak w praktyce wykorzystać tę funkcję.

Przykład 1: Test t dla jednej próby w R

Test t dla jednej próby służy do sprawdzenia, czy średnia populacji jest równa określonej wartości.

Załóżmy na przykład, że chcemy wiedzieć, czy średnia waga określonego gatunku żółwia wynosi 310 funtów. Wychodzimy i zbieramy prostą losową próbkę żółwi o następujących masach:

Waga : 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303

Poniższy kod pokazuje, jak wykonać ten przykładowy test t w R:

 #define vector of turtle weights
turtle_weights <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303)

#perform one sample t-test
t. test (x=turtle_weights,mu=310)

	One Sample t-test

data: turtle_weights
t = -1.5848, df = 12, p-value = 0.139
alternative hypothesis: true mean is not equal to 310
95 percent confidence interval:
 303.4236 311.0379
sample estimates:
mean of x 
 307.2308

Z wyniku możemy zobaczyć:

  • Statystyka testu t: -1,5848
  • stopnie swobody: 12
  • Wartość p: 0,139
  • 95% przedział ufności dla prawdziwej średniej: [303,4236, 311,0379]
  • średnia waga żółwi: 307 230

Ponieważ wartość p testu (0,139) jest nie mniejsza niż 0,05, nie udaje nam się odrzucić hipotezy zerowej.

Oznacza to, że nie mamy wystarczających dowodów, aby stwierdzić, że średnia waga tego gatunku żółwi przekracza 310 funtów.

Przykład 2: Test t dla dwóch próbek w R

Test t dla dwóch prób służy do sprawdzenia, czy średnie z dwóch populacji są równe, czy nie.

Załóżmy na przykład, że chcemy wiedzieć, czy średnia waga dwóch różnych gatunków żółwi jest równa, czy nie. Aby to przetestować, zbieramy prostą losową próbkę żółwi z każdego gatunku o następujących masach:

Próbka 1 : 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303

Próbka 2 : 335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305

Poniższy kod pokazuje, jak wykonać te dwa przykłady testu t w R:

 #define vector of turtle weights for each sample
sample1 <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303)
sample2 <- c(335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305)

#perform two sample t-tests
t. test (x = sample1, y = sample2)

	Welch Two Sample t-test

data: sample1 and sample2
t = -2.1009, df = 19.112, p-value = 0.04914
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -14.73862953 -0.03060124
sample estimates:
mean of x mean of y 
 307.2308 314.6154

Z wyniku możemy zobaczyć:

  • Statystyka testu t: -2,1009
  • stopnie swobody: 19112
  • Wartość p: 0,04914
  • 95% przedział ufności dla prawdziwej średniej różnicy: [-14,74, -0,03]
  • średnia masa próbki 1: 307,2308
  • średnia masa próbki 2: 314,6154

Ponieważ wartość p testu (0,04914) jest mniejsza niż 0,05, odrzucamy hipotezę zerową.

Oznacza to, że mamy wystarczające dowody, aby stwierdzić, że średnia waga obu gatunków nie jest równa.

Przykład 3: Test t dla par prób w R

Test t dla par prób służy do porównania średnich z dwóch próbek, gdy każdą obserwację w jednej próbie można powiązać z obserwacją w drugiej próbie.

Załóżmy na przykład, że chcemy wiedzieć, czy określony program treningowy jest w stanie zwiększyć maksymalny skok pionowy (w calach) koszykarzy.

Aby to przetestować, możemy zrekrutować prostą losową próbę 12 koszykarzy z college’u i zmierzyć każdy z ich maksymalnych skoków w pionie. Następnie możemy pozwolić każdemu zawodnikowi korzystać z programu treningowego przez miesiąc, a następnie pod koniec miesiąca ponownie zmierzyć jego maksymalny skok wzwyż.

Poniższe dane pokazują maksymalną wysokość skoku (w calach) przed i po zastosowaniu programu treningowego dla każdego zawodnika:

Przód : 22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21

Po : 23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20

Poniższy kod pokazuje, jak wykonać test t dla par próbek w R:

 #define before and after max jump heights
before <- c(22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21)
after <- c(23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20)

#perform paired samples t-test
t. test (x = before, y = after, paired = TRUE )

	Paired t-test

data: before and after
t = -2.5289, df = 11, p-value = 0.02803
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.3379151 -0.1620849
sample estimates:
mean of the differences 
                  -1.25

Z wyniku możemy zobaczyć:

  • Statystyka testu t: -2,5289
  • stopnie swobody: 11
  • wartość p: 0,02803
  • 95% przedział ufności dla prawdziwej średniej różnicy: [-2,34, -0,16]
  • średnia różnica między przed i po: -1,25

Ponieważ wartość p testu (0,02803) jest mniejsza niż 0,05, odrzucamy hipotezę zerową.

Oznacza to, że mamy wystarczające dowody, aby stwierdzić, że średnia wysokość skoku przed i po zastosowaniu programu treningowego nie jest równa.

Dodatkowe zasoby

Skorzystaj z poniższych kalkulatorów online, aby automatycznie wykonać różne testy t:

Przykład kalkulatora testu t
Kalkulator testu t dla dwóch próbek
Kalkulator testu t dla sparowanych próbek

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *