Come eseguire un test t con dimensioni campione diverse


Una domanda che spesso gli studenti si pongono quando si parla di statistica è:

È possibile eseguire un test t quando le dimensioni del campione di ciascun gruppo non sono uguali?

La risposta breve:

Sì, puoi eseguire un test t quando le dimensioni del campione non sono uguali. La parità di dimensioni del campione non è una delle ipotesi fatte in un t-test.

I veri problemi sorgono quando i due campioni non hanno varianze uguali, che è una delle ipotesi fatte in un t-test.

Quando ciò si verifica, si consiglia di utilizzare invece il test t di Welch , che non presuppone varianze uguali.

Gli esempi seguenti mostrano come eseguire test T con dimensioni campione diverse quando le varianze sono uguali e quando non lo sono.

Esempio 1: dimensioni del campione diverse e varianze uguali

Supponiamo di amministrare due programmi progettati per aiutare gli studenti a ottenere risultati migliori in determinati esami.

I risultati sono i seguenti:

Programma 1:

  • n (dimensione del campione): 500
  • x (media campionaria): 80
  • s (deviazione standard del campione): 5

Programma 2:

  • n (dimensione del campione): 20
  • x (media campionaria): 85
  • s (deviazione standard del campione): 5

Il codice seguente mostra come creare un boxplot in R per visualizzare la distribuzione dei punteggi degli esami per ciascun programma:

 #make this example reproducible
set. seeds (1)

#create vectors to hold exam scores
program1 <- rnorm(500, mean=80, sd=5)
program2 <- rnorm(20, mean=85, sd=5)

#create boxplots to visualize distribution of exam scores
boxplot(program1, program2, names=c(" Program 1 "," Program 2 "))

Il punteggio medio dell’esame per il Programma 2 sembra essere più alto, ma la variazione nei punteggi dell’esame tra i due programmi è approssimativamente uguale.

Il codice seguente mostra come eseguire un test t di campioni indipendenti con un test t di Welch:

 #perform independent samples t-test
t. test (program1, program2, var. equal = TRUE )

	Two Sample t-test

data: program1 and program2
t = -3.3348, df = 518, p-value = 0.0009148
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -6.111504 -1.580245
sample estimates:
mean of x mean of y 
 80.11322 83.95910

#perform Welch's two sample t-test
t. test (program1, program2, var. equal = FALSE )

	Welch Two Sample t-test

data: program1 and program2
t = -3.3735, df = 20.589, p-value = 0.00293
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -6.219551 -1.472199
sample estimates:
mean of x mean of y 
 80.11322 83.95910 

Il test t dei campioni indipendenti restituisce un valore p di 0,0009 e il test t di Welch restituisce un valore p di 0,0029 .

Poiché il valore p di ciascun test è inferiore a 0,05, rifiuteremo l’ipotesi nulla in ciascun test e concluderemo che esiste una differenza statisticamente significativa nei punteggi medi degli esami tra i due programmi.

Anche se le dimensioni del campione non sono uguali, il test t dei campioni indipendenti e il test t di Welch restituiscono entrambi risultati simili poiché i due campioni avevano varianze uguali.

Esempio 2: dimensioni del campione disuguali e varianze disuguali

Supponiamo di amministrare due programmi progettati per aiutare gli studenti a ottenere risultati migliori in determinati esami.

I risultati sono i seguenti:

Programma 1:

  • n (dimensione del campione): 500
  • x (media campionaria): 80
  • s (deviazione standard del campione): 25

Programma 2:

  • n (dimensione del campione): 20
  • x (media campionaria): 85
  • s (deviazione standard del campione): 5

Il codice seguente mostra come creare un boxplot in R per visualizzare la distribuzione dei punteggi degli esami per ciascun programma:

 #make this example reproducible
set. seeds (1)

#create vectors to hold exam scores
program1 <- rnorm(500, mean=80, sd=25)
program2 <- rnorm(20, mean=85, sd=5)

#create boxplots to visualize distribution of exam scores
boxplot(program1, program2, names=c(" Program 1 "," Program 2 "))

Il punteggio medio dell’esame per il Programma 2 sembra essere più alto, ma la varianza dei punteggi dell’esame per il Programma 1 è molto più elevata di quella del Programma 2.

Il codice seguente mostra come eseguire un test t di campioni indipendenti con un test t di Welch:

 #perform independent samples t-test
t. test (program1, program2, var. equal = TRUE )

	Two Sample t-test

data: program1 and program2
t = -0.5988, df = 518, p-value = 0.5496
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -14.52474 7.73875
sample estimates:
mean of x mean of y 
  80.5661 83.9591

#perform Welch's two sample t-test
t. test (program1, program2, var. equal = FALSE )

	Welch Two Sample t-test

data: program1 and program2
t = -2.1338, df = 74.934, p-value = 0.03613
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -6.560690 -0.225296
sample estimates:
mean of x mean of y 
  80.5661 83.9591 

Il test t dei campioni indipendenti restituisce un valore p di 0,5496 e il test t di Welch restituisce un valore p di 0,0361 .

Il t-test dei campioni indipendenti non è in grado di rilevare una differenza nei punteggi medi degli esami, ma il t-test di Welch è in grado di rilevare una differenza statisticamente significativa.

Poiché i due campioni presentavano varianze disuguali, solo il test t di Welch è stato in grado di rilevare la differenza statisticamente significativa nei punteggi medi degli esami, poiché questo test non presuppone varianze uguali tra i campioni .

Risorse addizionali

Le esercitazioni seguenti forniscono informazioni aggiuntive sui test t:

Introduzione al t-test per un campione
Introduzione al test t a due campioni
Introduzione al t-test per campioni appaiati

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *