Como calcular a variação amostral e populacional em python
A variância é uma forma de medir a distribuição de valores em um conjunto de dados.
A fórmula para calcular a variância populacional é:
σ 2 = Σ (x i – μ) 2 / N
Ouro:
- Σ : Um símbolo que significa “soma”
- μ : Média populacional
- x i : O i- ésimo elemento da população
- N : Tamanho da população
A fórmula para calcular a variância amostral é:
s 2 = Σ ( xi – x ) 2 / (n-1)
Ouro:
- x : médias amostrais
- x i : O i- ésimo elemento da amostra
- n : Tamanho da amostra
Podemos usar as funções variância e pvariance da biblioteca de estatísticas em Python para calcular rapidamente a variância da amostra e a variância da população (respectivamente) para uma determinada tabela.
from statistics import variance, pvariance #calculate sample variance variance(s) #calculate population variance pvariance(x)
Os exemplos a seguir mostram como usar cada função na prática.
Exemplo 1: Calculando a variação da amostra em Python
O código a seguir mostra como calcular a variação amostral de uma tabela em Python:
from statistics import variance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance variance(data) 22,067
A variância da amostra é 22.067 .
Exemplo 2: Calculando a variação populacional em Python
O código a seguir mostra como calcular a variação populacional de uma tabela em Python:
from statistics import pvariance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance pvariance(data) 20,596
A variação da população acaba sendo 20.596 .
Notas sobre cálculo de amostra e variação populacional
Tenha o seguinte em mente ao calcular a variância amostral e populacional:
- Você deve calcular a variação populacional quando o conjunto de dados com o qual está trabalhando representa uma população inteira, ou seja, todos os valores nos quais você está interessado.
- Você deve calcular a variação amostral quando o conjunto de dados com o qual está trabalhando representa uma amostra retirada de uma população de interesse maior.
- A variância amostral de uma determinada tabela de dados será sempre maior do que a variância populacional para a mesma tabela de dados porque há mais incerteza ao calcular a variância amostral, portanto, nossa estimativa da variância será maior.
Recursos adicionais
Os tutoriais a seguir explicam como calcular outras métricas de spread em Python:
Como calcular o intervalo interquartil em Python
Como calcular o coeficiente de variação em Python
Como calcular o desvio padrão de uma lista em Python