Quando usar média vs. mediana: com exemplos
A média de um conjunto de dados representa o valor médio do conjunto de dados. É calculado da seguinte forma:
Média = Σx i / n
Ouro:
- Σ: Um símbolo que significa “soma”
- x i : A i -ésima observação em um conjunto de dados
- n: o número total de observações no conjunto de dados
A mediana representa o valor médio de um conjunto de dados. É calculado ordenando todas as observações em um conjunto de dados do menor para o maior e, em seguida, identificando o valor mediano.
Por exemplo, suponha que temos o seguinte conjunto de dados com 11 observações :
Conjunto de dados: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17
A média do conjunto de dados é calculada da seguinte forma:
Média = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54
A mediana do conjunto de dados é o valor diretamente no meio, que é 8:
3, 4, 4, 6, 7 , 8, 12, 13, 15, 16, 17
A estimativa média e mediana de onde está o centro de um conjunto de dados. Contudo, dependendo da natureza dos dados, a média ou mediana pode ser mais útil para descrever o centro do conjunto de dados.
Quando usar a média
É melhor usar a média para descrever o centro de um conjunto de dados quando a distribuição é essencialmente simétrica e não há valores discrepantes.
Por exemplo, suponha que temos a seguinte distribuição que mostra os salários dos residentes de uma determinada cidade:
Como esta distribuição é bastante simétrica (se a dividirmos ao meio, cada metade pareceria aproximadamente igual) e não há valores discrepantes, podemos usar a média para descrever o centro deste conjunto de dados.
A média acaba sendo de US$ 63.000, que está aproximadamente no centro da distribuição:
Quando usar a mediana
É melhor usar a mediana quando a distribuição estiver distorcida ou quando houver valores discrepantes.
Dados distorcidos:
Quando uma distribuição é distorcida, a mediana descreve melhor o centro da distribuição do que a média.
Por exemplo, considere a seguinte distribuição de salários dos residentes de uma determinada cidade:
A mediana reflecte melhor o salário “típico” de um residente do que a média. Isso ocorre porque valores altos na cauda da distribuição tendem a afastar a média do centro e em direção à cauda longa.
Neste exemplo, a média nos diz que um indivíduo típico ganha cerca de US$ 47.000 por ano, enquanto a mediana nos diz que o indivíduo típico ganha apenas cerca de US$ 32.000 por ano, o que é muito mais representativo do indivíduo típico.
Valores discrepantes:
A mediana também ajuda a capturar melhor a localização central de uma distribuição quando há valores discrepantes nos dados. Por exemplo, considere o gráfico a seguir que mostra a metragem quadrada das casas em uma determinada rua:
A média é fortemente influenciada por algumas casas extremamente grandes, enquanto a mediana não. Assim, a mediana captura melhor a metragem quadrada “típica” de uma casa naquela rua do que a média.
Resumo
Resumindo:
- A média e a mediana podem ser usadas para descrever onde está o “centro” de um conjunto de dados.
- É melhor usar a média quando a distribuição dos valores dos dados for simétrica e não houver valores discrepantes claros.
- É melhor usar a mediana quando a distribuição dos valores dos dados é distorcida ou quando há valores discrepantes óbvios.
Recursos adicionais
Como os outliers afetam a média?
Como estimar a média e mediana de qualquer histograma
Como encontrar a média e a mediana dos gráficos de caule e folhas