Vantagens e desvantagens de usar a mediana nas estatísticas


A mediana representa o valor médio de um conjunto de dados.

É calculado ordenando todas as observações em um conjunto de dados do menor para o maior e, em seguida, identificando o valor mediano.

Existem duas vantagens principais em usar a mediana para descrever o centro de um conjunto de dados:

Vantagem nº 1: a mediana não é afetada por valores discrepantes. Como a mediana encontra apenas o valor médio de um conjunto de dados, ela não é afetada por valores extremamente pequenos ou extremamente grandes em nenhuma das extremidades de um conjunto de dados.

Vantagem nº 2: a mediana é uma boa medida do centro para conjuntos de dados distorcidos. Quando um conjunto de dados é distorcido para a esquerda ou para a direita , a mediana ainda consegue identificar o valor central de um conjunto de dados, ao contrário da média, que é fortemente afetada por distribuições distorcidas.

No entanto, usar a mediana para resumir um conjunto de dados tem duas desvantagens potenciais:

Desvantagem nº 1: A mediana não usa todas as observações de um conjunto de dados em seu cálculo. Em estatística, geralmente dizemos que é bom podermos usar todas as observações de um conjunto de dados, porque então estaremos usando toda a informação disponível em nossos dados. Porém, a mediana não leva em consideração informações de valores extremamente pequenos ou extremamente grandes em um conjunto de dados.

Desvantagem nº 2: a mediana não pode ser usada para encontrar a soma de todas as observações no conjunto de dados. Se conhecermos o tamanho médio e total da amostra de um conjunto de dados, podemos encontrar a soma de todos os valores no conjunto de dados. No entanto, não podemos fazer o mesmo com a mediana.

Os exemplos a seguir ilustram essas vantagens e desvantagens na prática.

Exemplo 1: as vantagens de usar a mediana

Suponha que temos uma distribuição salarial muito distorcida e decidimos calcular o salário médio e mediano:

A média nos diz que um indivíduo típico ganha cerca de US$ 47.000 por ano, enquanto a mediana nos diz que o indivíduo típico ganha apenas cerca de US$ 32.000 por ano, o que é muito mais representativo do indivíduo típico.

Neste exemplo, a média é afetada pelos valores mais altos na cauda direita da distribuição, enquanto a mediana não.

Ou suponha que temos outra distribuição contendo informações sobre a metragem quadrada das casas em uma determinada rua e decidimos calcular a média e a mediana do conjunto de dados:

Quando usar a média versus a mediana

A média é influenciada por algumas casas extremamente grandes, fazendo com que ela assuma um valor muito mais elevado.

No entanto, a mediana não é afetada por esses valores discrepantes e, portanto, fornece uma medida muito melhor da metragem quadrada “típica” de uma casa naquela rua.

Exemplo 2: as desvantagens de usar a mediana

Recordemos a primeira desvantagem potencial da mediana:

Desvantagem nº 1: A mediana não usa todas as observações de um conjunto de dados em seu cálculo.

Por exemplo, suponha que temos o seguinte conjunto de dados que mostra a distribuição das notas dos exames dos alunos de uma turma:

Avaliações: 68, 70, 71, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92

A pontuação média no exame é 83.

Agora, suponha que temos o mesmo conjunto de dados, mas as três pontuações mais baixas nos exames são muito mais baixas:

Avaliações: 22, 35, 38, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92

A pontuação média do exame nesta distribuição ainda é 83.

É por isso que dizemos que a mediana não utiliza toda a informação disponível num conjunto de dados: ela não leva em consideração os valores reais dos dados, pois é apenas uma medida de posição.

Agora vamos relembrar a segunda desvantagem potencial da mediana:

Desvantagem nº 2: a mediana não pode ser usada para encontrar a soma de todas as observações no conjunto de dados.

Suponha que temos o seguinte conjunto de dados contendo informações sobre o total de vendas realizadas por 11 funcionários diferentes em um determinado trimestre:

Vendas: 12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38

Sabemos que o valor mediano é 24 e sabemos que há 11 funcionários no total. Porém, não podemos utilizar essas informações para saber o valor total das vendas de todos os funcionários.

Por outro lado, se soubéssemos que o valor médio é 24 e que há 11 funcionários no total, poderíamos simplesmente multiplicar 24 por 11 para descobrir que a soma total das vendas é 24 * 11 = 264.

Nota : Dependendo da distribuição dos seus dados e do problema que você está tentando resolver, a média ou mediana pode ser a métrica preferida a ser usada.

Recursos adicionais

Os tutoriais a seguir fornecem informações adicionais sobre a média e a mediana nas estatísticas:

Como os outliers afetam a média?
Como estimar a média e mediana de qualquer histograma
Como encontrar a média e a mediana dos gráficos de caule e folhas

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *