O guia completo: teste de hipóteses em r
Um teste de hipótese é um teste estatístico formal que usamos para rejeitar ou não rejeitar uma hipótese estatística.
Este tutorial explica como realizar os seguintes testes de hipótese em R:
- Um teste t de amostra
- Teste T de duas amostras
- Teste t de amostras pareadas
Podemos usar a função t.test() em R para realizar cada tipo de teste:
#one sample t-test t. test (x, y = NULL, alternative = c(" two.sided ", " less ", " greater "), mu = 0, paired = FALSE, var.equal = FALSE , conf.level = 0.95, …)
Ouro:
- x, y: as duas amostras de dados.
- alternativa: A hipótese alternativa do teste.
- mu: O verdadeiro valor da média.
- pareado: se deve ou não realizar um teste t pareado.
- var.equal: se deve assumir que as variações são iguais entre as amostras.
- conf.level: O nível de confiança a ser usado.
Os exemplos a seguir mostram como usar esta função na prática.
Exemplo 1: teste t de uma amostra em R
Um teste t de uma amostra é usado para testar se a média de uma população é ou não igual a um determinado valor.
Por exemplo, digamos que queremos saber se o peso médio de uma determinada espécie de tartaruga é ou não de 310 libras. Saímos e coletamos uma amostra aleatória simples de tartarugas com os seguintes pesos:
Peso : 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303
O código a seguir mostra como realizar este exemplo de teste t em R:
#define vector of turtle weights turtle_weights <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303) #perform one sample t-test t. test (x=turtle_weights,mu=310) One Sample t-test data: turtle_weights t = -1.5848, df = 12, p-value = 0.139 alternative hypothesis: true mean is not equal to 310 95 percent confidence interval: 303.4236 311.0379 sample estimates: mean of x 307.2308
Pelo resultado podemos ver:
- estatística do teste t: -1,5848
- graus de liberdade: 12
- valor p: 0,139
- Intervalo de confiança de 95% para média verdadeira: [303,4236, 311,0379]
- peso médio das tartarugas: 307.230
Como o valor p do teste (0,139) não é inferior a 0,05, não rejeitamos a hipótese nula.
Isto significa que não temos provas suficientes para dizer que o peso médio desta espécie de tartaruga seja diferente de 310 libras.
Exemplo 2: teste t de duas amostras em R
Um teste t de duas amostras é usado para testar se as médias de duas populações são iguais ou não.
Por exemplo, suponhamos que queremos saber se o peso médio de duas espécies diferentes de tartarugas é igual ou não. Para testar isso, coletamos uma amostra aleatória simples de tartarugas de cada espécie com os seguintes pesos:
Amostra 1 : 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303
Amostra 2 : 335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305
O código a seguir mostra como realizar esses dois exemplos de teste t em R:
#define vector of turtle weights for each sample sample1 <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303) sample2 <- c(335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305) #perform two sample t-tests t. test (x = sample1, y = sample2) Welch Two Sample t-test data: sample1 and sample2 t = -2.1009, df = 19.112, p-value = 0.04914 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -14.73862953 -0.03060124 sample estimates: mean of x mean of y 307.2308 314.6154
Pelo resultado podemos ver:
- estatística do teste t: -2,1009
- graus de liberdade: 19.112
- Valor p: 0,04914
- Intervalo de confiança de 95% para diferença média verdadeira: [-14,74, -0,03]
- peso médio da amostra 1: 307,2308
- peso médio da amostra 2: 314,6154
Como o valor p do teste (0,04914) é inferior a 0,05, rejeitamos a hipótese nula.
Isto significa que temos provas suficientes para dizer que o peso médio entre as duas espécies não é igual.
Exemplo 3: teste t de amostras pareadas em R
Um teste t de amostras pareadas é usado para comparar as médias de duas amostras quando cada observação em uma amostra pode ser associada a uma observação na outra amostra.
Por exemplo, digamos que queremos saber se um determinado programa de treinamento é ou não capaz de aumentar o salto vertical máximo (em polegadas) de jogadores de basquete.
Para testar isso, podemos recrutar uma amostra aleatória simples de 12 jogadores de basquete universitário e medir cada um dos seus saltos verticais máximos. Depois podemos fazer com que cada jogador utilize o programa de treino durante um mês e depois medir novamente o seu salto vertical máximo no final do mês.
Os dados a seguir mostram a altura máxima do salto (em polegadas) antes e depois de usar o programa de treinamento para cada jogador:
Frente : 22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21
Depois : 23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20
O código a seguir mostra como realizar este teste t de amostras emparelhadas em R:
#define before and after max jump heights before <- c(22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21) after <- c(23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20) #perform paired samples t-test t. test (x = before, y = after, paired = TRUE ) Paired t-test data: before and after t = -2.5289, df = 11, p-value = 0.02803 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.3379151 -0.1620849 sample estimates: mean of the differences -1.25
Pelo resultado podemos ver:
- estatística do teste t: -2,5289
- graus de liberdade: 11
- valor p: 0,02803
- Intervalo de confiança de 95% para diferença média verdadeira: [-2,34, -0,16]
- diferença média entre antes e depois: -1,25
Como o valor p do teste (0,02803) é inferior a 0,05, rejeitamos a hipótese nula.
Isto significa que temos evidências suficientes para dizer que a altura média do salto antes e depois de usar o programa de treinamento não é igual.
Recursos adicionais
Use as seguintes calculadoras online para realizar vários testes t automaticamente:
Um exemplo de calculadora de teste t
Calculadora de teste t de duas amostras
Calculadora de teste t de amostras emparelhadas