Como interpretar a saída da regressão no excel
A regressão linear múltipla é uma das técnicas mais comumente usadas em todas as estatísticas.
Este tutorial explica como interpretar cada valor na saída de um modelo de regressão linear múltipla no Excel.
Exemplo: Interpretando a saída da regressão no Excel
Suponha que queiramos saber se o número de horas de estudo e o número de exames preparatórios realizados afetam a nota que um aluno obtém em determinado vestibular.
Para explorar essa relação, podemos realizar uma regressão linear múltipla usando horas estudadas e exames preparatórios tomados como variáveis preditoras e notas de exames como variável resposta.
A captura de tela a seguir mostra a saída de regressão deste modelo no Excel:
Veja como interpretar os maiores valores na saída:
Múltiplo R: 0,857 . Isso representa a correlação múltipla entre a variável resposta e as duas variáveis preditoras.
R Quadrado: 0,734 . Isso é chamado de coeficiente de determinação. É a proporção da variância da variável resposta que pode ser explicada pelas variáveis explicativas. Neste exemplo, 73,4% da variação nas notas dos exames é explicada pela quantidade de horas estudadas e pela quantidade de exames preparatórios realizados.
R quadrado ajustado: 0,703 . Isso representa o valor R Square, ajustado para o número de variáveis preditoras no modelo . Este valor também será inferior ao valor R Square e penalizará os modelos que usam muitas variáveis preditoras no modelo.
Erro padrão: 5,366 . Esta é a distância média entre os valores observados e a linha de regressão. Neste exemplo, os valores observados desviam-se em média 5.366 unidades da linha de regressão.
Comentários: 20 . Tamanho total da amostra do conjunto de dados usado para produzir o modelo de regressão.
F: 23h46 Esta é a estatística F geral para o modelo de regressão, calculada como regressão MS/MS residual.
Significado F: 0,0000 . Este é o valor p associado à estatística F geral. Isto nos diz se o modelo de regressão como um todo é estatisticamente significativo ou não.
Neste caso, o valor p é inferior a 0,05, indicando que as variáveis explicativas , horas estudadas e exames preparatórios realizados em conjunto, têm associação estatisticamente significativa com o resultado do exame .
Coeficientes: Os coeficientes de cada variável explicativa nos informam a mudança média esperada na variável de resposta, assumindo que a outra variável explicativa permaneça constante.
Por exemplo, para cada hora adicional gasta estudando, espera-se que a pontuação média do exame aumente em 5,56 , assumindo que os exames práticos realizados permaneçam constantes.
Interpretamos o coeficiente de interceptação como significando que a nota esperada no exame para um aluno que não estuda horas e não faz exames preparatórios é 67,67 .
Valores P. Os valores p individuais nos dizem se cada variável explicativa é estatisticamente significativa ou não. Podemos perceber que as horas estudadas são estatisticamente significativas (p = 0,00) enquanto os exames preparatórios realizados (p = 0,52) não são estatisticamente significativos para α = 0,05.
Como escrever a equação de regressão estimada
Podemos usar os coeficientes do resultado do modelo para criar a seguinte equação de regressão estimada:
Nota do exame = 67,67 + 5,56*(horas) – 0,60*(exames preparatórios)
Podemos usar esta equação de regressão estimada para calcular a pontuação esperada no exame de um aluno, com base no número de horas de estudo e no número de exames práticos que ele faz.
Por exemplo, um aluno que estuda três horas e faz um exame preparatório deverá obter nota 83,75 :
Nota do exame = 67,67 + 5,56*(3) – 0,60*(1) = 83,75
Lembre-se de que, como os exames preparatórios anteriores não foram estatisticamente significativos (p = 0,52), podemos decidir removê-los, pois não proporcionam nenhuma melhoria ao modelo geral.
Neste caso, poderíamos realizar uma regressão linear simples utilizando apenas as horas estudadas como variável explicativa.
Recursos adicionais
Introdução à regressão linear simples
Introdução à regressão linear múltipla