Como calcular a variação amostral e populacional em r


A variância é uma forma de medir quão bem os valores dos dados estão distribuídos em torno da média.

A fórmula para encontrar a variância de uma população é:

σ 2 = Σ (x i – μ) 2 / N

onde μ é a média da população, x i é o i- ésimo elemento da população, N é o tamanho da população e Σ é apenas um símbolo sofisticado que significa “soma”.

A fórmula para encontrar a variância de uma amostra é:

s 2 = Σ ( xix ) 2 / (n-1)

onde x é a média da amostra, x i é o i -ésimo elemento da amostra e n é o tamanho da amostra.

Exemplo: Calcular a variância amostral e populacional em R

Suponha que temos o seguinte conjunto de dados em R:

 #define dataset
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)

Podemos calcular a variância da amostra usando a função var() em R:

 #calculate sample variance
var(data)

[1] 46.01111

E podemos calcular a variância da população simplesmente multiplicando a variância da amostra por (n-1)/n da seguinte forma:

 #determine length of data
n <- length (data)

#calculate population variance
var(data) * (n-1)/n

[1] 41.41

Observe que a variância da população será sempre menor que a variância da amostra.

Na prática, geralmente calculamos variâncias amostrais para conjuntos de dados, porque é incomum coletar dados para uma população inteira.

Exemplo: Calcule a variância de uma amostra de várias colunas

Suponha que temos o seguinte quadro de dados em R:

 #create data frame
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
                   b=c(2, 4, 4, 5, 5, 6, 7, 16),
                   c=c(6, 6, 7, 8, 8, 9, 9, 12))

#view data frame
data

   ABC
1 1 2 6
2 3 4 6
3 4 4 7
4 4 5 8
5 6 5 8
6 7 6 9
7 8 7 9
8 12 16 12

Podemos usar a função sapply() para calcular a variação da amostra de cada coluna no quadro de dados:

 #find sample variance of each column
sapply(data, var)

        ABC
11.696429 18.125000 3.839286

E podemos usar o código a seguir para calcular o desvio padrão amostral de cada coluna, que é simplesmente a raiz quadrada da variância amostral:

 #find sample standard deviation of each column
sapply(data, sd)

       ABC
3.420004 4.257347 1.959410

Você pode encontrar mais tutoriais de R aqui .

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *