Como comparar gráficos de caixa: com exemplos
Um box plot é um tipo de gráfico que exibe o resumo de cinco dígitos de um conjunto de dados, que inclui:
- O valor mínimo
- O primeiro quartil (o 25º percentil)
- O valor mediano
- O terceiro quartil (o 75º percentil)
- O valor máximo
Para fazer um box plot, desenhamos uma caixa do primeiro ao terceiro quartil. A seguir, traçamos uma linha vertical na mediana. Por fim, traçamos “bigodes” dos quartis até o valor mínimo e máximo.
Os boxplots são úteis porque nos permitem compreender rapidamente a distribuição de valores em um conjunto de dados. Eles também são úteis para comparar dois conjuntos de dados diferentes.
Ao comparar dois ou mais boxplots, podemos responder a quatro perguntas diferentes:
1. Como os valores medianos se comparam? Podemos comparar a linha vertical em cada caixa para determinar qual conjunto de dados tem um valor mediano mais alto.
2. Como se compara a dispersão? Podemos comparar o comprimento de cada caixa (que representa a distância entre Q1 e Q3 – o intervalo interquartil) para determinar qual conjunto de dados é maior.
3. Como se compara a assimetria? Quanto mais próxima a linha vertical estiver do primeiro trimestre, mais distorcido positivamente será o conjunto de dados. Quanto mais próxima a linha vertical estiver do terceiro trimestre, mais distorcido será o conjunto de dados.
4. Existem valores discrepantes? Em box plots, os valores discrepantes são geralmente representados por pequenos círculos que se estendem além de cada bigode. Uma observação é definida como outlier se atender a um dos seguintes critérios:
- Uma observação é menor que Q1 – 1,5*IQR
- Uma observação é maior que Q3 + 1,5*IQR
O exemplo a seguir mostra como comparar dois boxplots diferentes e responder a essas quatro perguntas.
Exemplo: Comparando Box Plots
Os conjuntos de dados a seguir exibem os resultados de alunos que usaram uma das duas técnicas de estudo para se preparar para o exame:
Método 1: 78, 78, 79, 80, 80, 82, 82, 83, 83, 86, 86, 86, 86, 87, 87, 87, 88, 88, 88, 91
Método 2: 66, 66, 66, 67, 68, 70, 72, 75, 75, 78, 82, 83, 86, 88, 89, 90, 93, 94, 95, 98
Se criarmos boxplots para cada conjunto de dados, eles seriam assim:
Podemos comparar esses dois boxplots e responder às quatro perguntas a seguir:
1. Como os valores medianos se comparam? A linha no meio do box plot para o método de estudo 1 é superior à linha para o método de estudo 2, indicando que os alunos que utilizaram o método de estudo 1 tiveram uma nota mediana no exame superior.
2. Como se compara a dispersão? O box plot do Método de Estudo 2 é muito mais longo do que o do Método de Estudo 1, indicando que as notas dos exames são muito mais distribuídas entre os alunos que usaram o Método de Estudo 2.
3. Como se compara a assimetria? A linha no meio do box plot para o método de estudo 1 está próxima de Q3, indicando que a distribuição das notas dos exames para os alunos que usaram o método de estudo 1 é negativamente distorcida. Por outro lado, a linha no meio do box plot para o método de estudo 2 está próxima do centro da caixa, o que significa que a distribuição das pontuações é minimamente distorcida.
4. Existem valores discrepantes? Nenhum dos boxplots possui pequenos círculos que se estendem além dos bigodes superior ou inferior, o que significa que nenhum conjunto de dados possui valores discrepantes claros.
Recursos adicionais
Como criar e interpretar gráficos de caixa no Excel
Como criar e interpretar box plots no SPSS
Como criar vários gráficos de caixa em R
Como criar e interpretar gráficos de caixa no Stata