Vantagens e desvantagens de usar a mediana nas estatísticas
A mediana representa o valor médio de um conjunto de dados.
É calculado ordenando todas as observações em um conjunto de dados do menor para o maior e, em seguida, identificando o valor mediano.
Existem duas vantagens principais em usar a mediana para descrever o centro de um conjunto de dados:
Vantagem nº 1: a mediana não é afetada por valores discrepantes. Como a mediana encontra apenas o valor médio de um conjunto de dados, ela não é afetada por valores extremamente pequenos ou extremamente grandes em nenhuma das extremidades de um conjunto de dados.
Vantagem nº 2: a mediana é uma boa medida do centro para conjuntos de dados distorcidos. Quando um conjunto de dados é distorcido para a esquerda ou para a direita , a mediana ainda consegue identificar o valor central de um conjunto de dados, ao contrário da média, que é fortemente afetada por distribuições distorcidas.
No entanto, usar a mediana para resumir um conjunto de dados tem duas desvantagens potenciais:
Desvantagem nº 1: A mediana não usa todas as observações de um conjunto de dados em seu cálculo. Em estatística, geralmente dizemos que é bom podermos usar todas as observações de um conjunto de dados, porque então estaremos usando toda a informação disponível em nossos dados. Porém, a mediana não leva em consideração informações de valores extremamente pequenos ou extremamente grandes em um conjunto de dados.
Desvantagem nº 2: a mediana não pode ser usada para encontrar a soma de todas as observações no conjunto de dados. Se conhecermos o tamanho médio e total da amostra de um conjunto de dados, podemos encontrar a soma de todos os valores no conjunto de dados. No entanto, não podemos fazer o mesmo com a mediana.
Os exemplos a seguir ilustram essas vantagens e desvantagens na prática.
Exemplo 1: as vantagens de usar a mediana
Suponha que temos uma distribuição salarial muito distorcida e decidimos calcular o salário médio e mediano:
A média nos diz que um indivíduo típico ganha cerca de US$ 47.000 por ano, enquanto a mediana nos diz que o indivíduo típico ganha apenas cerca de US$ 32.000 por ano, o que é muito mais representativo do indivíduo típico.
Neste exemplo, a média é afetada pelos valores mais altos na cauda direita da distribuição, enquanto a mediana não.
Ou suponha que temos outra distribuição contendo informações sobre a metragem quadrada das casas em uma determinada rua e decidimos calcular a média e a mediana do conjunto de dados:
A média é influenciada por algumas casas extremamente grandes, fazendo com que ela assuma um valor muito mais elevado.
No entanto, a mediana não é afetada por esses valores discrepantes e, portanto, fornece uma medida muito melhor da metragem quadrada “típica” de uma casa naquela rua.
Exemplo 2: as desvantagens de usar a mediana
Recordemos a primeira desvantagem potencial da mediana:
Desvantagem nº 1: A mediana não usa todas as observações de um conjunto de dados em seu cálculo.
Por exemplo, suponha que temos o seguinte conjunto de dados que mostra a distribuição das notas dos exames dos alunos de uma turma:
Avaliações: 68, 70, 71, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92
A pontuação média no exame é 83.
Agora, suponha que temos o mesmo conjunto de dados, mas as três pontuações mais baixas nos exames são muito mais baixas:
Avaliações: 22, 35, 38, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92
A pontuação média do exame nesta distribuição ainda é 83.
É por isso que dizemos que a mediana não utiliza toda a informação disponível num conjunto de dados: ela não leva em consideração os valores reais dos dados, pois é apenas uma medida de posição.
Agora vamos relembrar a segunda desvantagem potencial da mediana:
Desvantagem nº 2: a mediana não pode ser usada para encontrar a soma de todas as observações no conjunto de dados.
Suponha que temos o seguinte conjunto de dados contendo informações sobre o total de vendas realizadas por 11 funcionários diferentes em um determinado trimestre:
Vendas: 12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38
Sabemos que o valor mediano é 24 e sabemos que há 11 funcionários no total. Porém, não podemos utilizar essas informações para saber o valor total das vendas de todos os funcionários.
Por outro lado, se soubéssemos que o valor médio é 24 e que há 11 funcionários no total, poderíamos simplesmente multiplicar 24 por 11 para descobrir que a soma total das vendas é 24 * 11 = 264.
Nota : Dependendo da distribuição dos seus dados e do problema que você está tentando resolver, a média ou mediana pode ser a métrica preferida a ser usada.
Recursos adicionais
Os tutoriais a seguir fornecem informações adicionais sobre a média e a mediana nas estatísticas:
Como os outliers afetam a média?
Como estimar a média e mediana de qualquer histograma
Como encontrar a média e a mediana dos gráficos de caule e folhas