Como calcular a variação amostral e populacional em python


A variância é uma forma de medir a distribuição de valores em um conjunto de dados.

A fórmula para calcular a variância populacional é:

σ 2 = Σ (x i – μ) 2 / N

Ouro:

  • Σ : Um símbolo que significa “soma”
  • μ : Média populacional
  • x i : O i- ésimo elemento da população
  • N : Tamanho da população

A fórmula para calcular a variância amostral é:

s 2 = Σ ( xix ) 2 / (n-1)

Ouro:

  • x : médias amostrais
  • x i : O i- ésimo elemento da amostra
  • n : Tamanho da amostra

Podemos usar as funções variância e pvariance da biblioteca de estatísticas em Python para calcular rapidamente a variância da amostra e a variância da população (respectivamente) para uma determinada tabela.

 from statistics import variance, pvariance

#calculate sample variance
variance(s)

#calculate population variance
pvariance(x)

Os exemplos a seguir mostram como usar cada função na prática.

Exemplo 1: Calculando a variação da amostra em Python

O código a seguir mostra como calcular a variação amostral de uma tabela em Python:

 from statistics import variance 

#define data
data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14]

#calculate sample variance
variance(data)

22,067

A variância da amostra é 22.067 .

Exemplo 2: Calculando a variação populacional em Python

O código a seguir mostra como calcular a variação populacional de uma tabela em Python:

 from statistics import pvariance 

#define data
data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14]

#calculate sample variance
pvariance(data)

20,596

A variação da população acaba sendo 20.596 .

Notas sobre cálculo de amostra e variação populacional

Tenha o seguinte em mente ao calcular a variância amostral e populacional:

  • Você deve calcular a variação populacional quando o conjunto de dados com o qual está trabalhando representa uma população inteira, ou seja, todos os valores nos quais você está interessado.
  • Você deve calcular a variação amostral quando o conjunto de dados com o qual está trabalhando representa uma amostra retirada de uma população de interesse maior.
  • A variância amostral de uma determinada tabela de dados será sempre maior do que a variância populacional para a mesma tabela de dados porque há mais incerteza ao calcular a variância amostral, portanto, nossa estimativa da variância será maior.

Recursos adicionais

Os tutoriais a seguir explicam como calcular outras métricas de spread em Python:

Como calcular o intervalo interquartil em Python
Como calcular o coeficiente de variação em Python
Como calcular o desvio padrão de uma lista em Python

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *