Quando usar média vs. mediana: com exemplos


A média de um conjunto de dados representa o valor médio do conjunto de dados. É calculado da seguinte forma:

Média = Σx i / n

Ouro:

  • Σ: Um símbolo que significa “soma”
  • x i : A i -ésima observação em um conjunto de dados
  • n: o número total de observações no conjunto de dados

A mediana representa o valor médio de um conjunto de dados. É calculado ordenando todas as observações em um conjunto de dados do menor para o maior e, em seguida, identificando o valor mediano.

Por exemplo, suponha que temos o seguinte conjunto de dados com 11 observações :

Conjunto de dados: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17

A média do conjunto de dados é calculada da seguinte forma:

Média = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54

A mediana do conjunto de dados é o valor diretamente no meio, que é 8:

3, 4, 4, 6, 7 , 8, 12, 13, 15, 16, 17

A estimativa média e mediana de onde está o centro de um conjunto de dados. Contudo, dependendo da natureza dos dados, a média ou mediana pode ser mais útil para descrever o centro do conjunto de dados.

Quando usar a média

É melhor usar a média para descrever o centro de um conjunto de dados quando a distribuição é essencialmente simétrica e não há valores discrepantes.

Por exemplo, suponha que temos a seguinte distribuição que mostra os salários dos residentes de uma determinada cidade:

Como esta distribuição é bastante simétrica (se a dividirmos ao meio, cada metade pareceria aproximadamente igual) e não há valores discrepantes, podemos usar a média para descrever o centro deste conjunto de dados.

A média acaba sendo de US$ 63.000, que está aproximadamente no centro da distribuição:

Quando usar a mediana

É melhor usar a mediana quando a distribuição estiver distorcida ou quando houver valores discrepantes.

Dados distorcidos:

Quando uma distribuição é distorcida, a mediana descreve melhor o centro da distribuição do que a média.

Por exemplo, considere a seguinte distribuição de salários dos residentes de uma determinada cidade:

A mediana reflecte melhor o salário “típico” de um residente do que a média. Isso ocorre porque valores altos na cauda da distribuição tendem a afastar a média do centro e em direção à cauda longa.

Neste exemplo, a média nos diz que um indivíduo típico ganha cerca de US$ 47.000 por ano, enquanto a mediana nos diz que o indivíduo típico ganha apenas cerca de US$ 32.000 por ano, o que é muito mais representativo do indivíduo típico.

Valores discrepantes:

A mediana também ajuda a capturar melhor a localização central de uma distribuição quando há valores discrepantes nos dados. Por exemplo, considere o gráfico a seguir que mostra a metragem quadrada das casas em uma determinada rua:

Quando usar a média versus a mediana

A média é fortemente influenciada por algumas casas extremamente grandes, enquanto a mediana não. Assim, a mediana captura melhor a metragem quadrada “típica” de uma casa naquela rua do que a média.

Resumo

Resumindo:

  • A média e a mediana podem ser usadas para descrever onde está o “centro” de um conjunto de dados.
  • É melhor usar a média quando a distribuição dos valores dos dados for simétrica e não houver valores discrepantes claros.
  • É melhor usar a mediana quando a distribuição dos valores dos dados é distorcida ou quando há valores discrepantes óbvios.

Recursos adicionais

Como os outliers afetam a média?
Como estimar a média e mediana de qualquer histograma
Como encontrar a média e a mediana dos gráficos de caule e folhas

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *