Как найти доверительные интервалы в r (с примерами)
Доверительный интервал — это диапазон значений, который может содержать параметр совокупности с определенным уровнем достоверности.
Он рассчитывается по следующей общей формуле:
Доверительный интервал = (точечная оценка) +/- (критическое значение)* (стандартная ошибка)
Эта формула создает интервал с нижней и верхней границей, который, вероятно, содержит параметр совокупности с некоторым уровнем достоверности:
Доверительный интервал = [нижний предел, верхний предел]
В этом руководстве объясняется, как рассчитать следующие доверительные интервалы в R:
1. Доверительный интервал для среднего значения
2. Доверительный интервал для разницы средних
3. Доверительный интервал для доли
4. Доверительный интервал для разницы в пропорциях
Пойдем!
Пример 1: Доверительный интервал для среднего значения
Мы используем следующую формулу для расчета доверительного интервала для среднего значения :
Доверительный интервал = x +/- t n-1, 1-α/2 *(s/√n)
Золото:
- x : выборочное среднее
- t: t-критическое значение
- s: выборочное стандартное отклонение
- n: размер выборки
Пример: Предположим, мы собрали случайную выборку черепах со следующей информацией:
- Размер выборки n = 25
- Средний вес выборки x = 300
- Выборочное стандартное отклонение s = 18,5
Следующий код показывает, как рассчитать 95% доверительный интервал для истинного среднего веса популяции черепах:
#input sample size, sample mean, and sample standard deviation n <- 25 xbar <- 300 s <- 18.5 #calculate margin of error margin <- qt(0.975,df=n-1)*s/sqrt(n) #calculate lower and upper bounds of confidence interval low <- xbar - margin low [1] 292.3636 high <- xbar + margin high [1] 307.6364
95% доверительный интервал для истинного среднего веса популяции черепах составляет [292,36, 307,64] .
Пример 2: Доверительный интервал для разницы средних значений
Мы используем следующую формулу для расчета доверительного интервала для разницы в средних значениях совокупности :
Доверительный интервал = ( x 1 – x 2 ) +/- t*√((s p 2 /n 1 ) + (s p 2 /n 2 ))
Золото:
- x 1 , x 2 : среднее значение образца 1, среднее значение образца 2
- t: t-критическое значение, основанное на уровне достоверности и (n 1 + n 2 -2) степенях свободы.
- s p 2 : объединенная дисперсия, рассчитанная как ((n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
- t: t-критическое значение
- n 1 , n 2 : размер выборки 1, размер выборки 2
Пример: Предположим, мы хотим оценить разницу в среднем весе двух разных видов черепах. Поэтому мы собираем случайную выборку из 15 черепах из каждой популяции. Вот сводные данные по каждому образцу:
Образец 1:
- х1 = 310
- с 1 = 18,5
- п 1 = 15
Образец 2:
- х2 = 300
- с2 = 16,4
- п2 = 15
Следующий код показывает, как вычислить 95% доверительный интервал для истинной разницы в средних значениях совокупности:
#input sample size, sample mean, and sample standard deviation n1 <- 15 xbar1 <- 310 s1 <- 18.5 n2 <- 15 xbar2 <- 300 s2 <- 16.4 #calculate pooled variance sp = ((n1-1)*s1^2 + (n2-1)*s2^2) / (n1+n2-2) #calculate margin of error margin <- qt(0.975,df=n1+n2-1)*sqrt(sp/n1 + sp/n2) #calculate lower and upper bounds of confidence interval low <- (xbar1-xbar2) - margin low [1] -3.055445 high <- (xbar1-xbar2) + margin high [1] 23.05544
95% доверительный интервал для истинной разницы между средними значениями генеральной совокупности составляет [-3,06, 23,06] .
Пример 3: Доверительный интервал для доли
Мы используем следующую формулу для расчета доверительного интервала для пропорции :
Доверительный интервал = p +/- z*(√ p(1-p) / n )
Золото:
- p: доля выборки
- z: выбранное значение z
- n: размер выборки
Пример: Предположим, мы хотим оценить долю жителей округа, которые поддерживают определенный закон. Мы выбираем случайную выборку из 100 жителей и спрашиваем их, какова их позиция по закону. Вот результаты:
- Размер выборки n = 100
- Доля в пользу закона p = 0,56
Следующий код показывает, как рассчитать 95% доверительный интервал для истинной доли жителей округа, которые поддерживают закон:
#input sample size and sample proportion n <- 100 p <- .56 #calculate margin of error margin <- qnorm(0.975)*sqrt(p*(1-p)/n) #calculate lower and upper bounds of confidence interval low <- p - margin low [1] 0.4627099 high <- p + margin high [1] 0.6572901
95% доверительный интервал для истинной доли жителей округа, поддерживающих закон, составляет [0,463, 0,657] .
Пример 4: Доверительный интервал для разницы в пропорциях
Мы используем следующую формулу для расчета доверительного интервала для разницы в пропорциях :
Доверительный интервал = (p 1 –p 2 ) +/- z*√(p 1 (1-p 1 )/n 1 + p 2 (1-p 2 )/n 2 )
Золото:
- p 1 , p 2 : доля образца 1, доля образца 2.
- z: z-критическое значение, основанное на уровне достоверности.
- n 1 , n 2 : размер выборки 1, размер выборки 2
Пример: Предположим, мы хотим оценить разницу между долей жителей, поддерживающих определенный закон в округе А, и долей жителей, поддерживающих закон в округе Б. Вот сводные данные для каждой выборки:
Образец 1:
- п 1 = 100
- p 1 = 0,62 (т.е. 62 жителя из 100 поддерживают закон)
Образец 2:
- п2 = 100
- p 2 = 0,46 (т.е. 46 жителей из 100 поддерживают закон)
Следующий код показывает, как рассчитать 95% доверительный интервал для истинной разницы в доле жителей, поддерживающих закон между округами:
#input sample sizes and sample proportions n1 <- 100 p1 <- .62 n2 <- 100 p2 <- .46 #calculate margin of error margin <- qnorm(0.975)*sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2) #calculate lower and upper bounds of confidence interval low <- (p1-p2) - margin low [1] 0.02364509 high <- (p1-p2) + margin high [1] 0.2963549
95% доверительный интервал для истинной разницы в доле жителей, поддерживающих закон между округами, составляет [0,024, 0,296] .
Дополнительные руководства по R можно найти здесь .