Como ler e interpretar uma tabela de regressão


Em estatística, a regressão é uma técnica que pode ser usada para analisar a relação entre variáveis preditoras e uma variável de resposta.

Ao usar software (como R, SAS, SPSS, etc.) para realizar análises de regressão, você receberá como saída uma tabela de regressão resumindo os resultados da regressão. É importante saber ler esta tabela para poder compreender os resultados da análise de regressão.

Este tutorial mostra um exemplo de análise de regressão e fornece uma explicação detalhada de como ler e interpretar o resultado de uma tabela de regressão.

Um exemplo de regressão

Suponha que temos o seguinte conjunto de dados que mostra o número total de horas estudadas, o número total de exames preparatórios realizados e a nota do exame final para 12 alunos diferentes:

Para analisar a relação entre as horas estudadas e os exames preparatórios realizados com a nota do exame final obtida pelo aluno, realizamos uma regressão linear múltipla utilizando as horas estudadas e os exames preparatórios realizados como variáveis preditoras e a nota final em exame como variável resposta.

Recebemos o seguinte resultado:

Examinando o ajuste do modelo

A primeira seção mostra vários números diferentes que medem o ajuste do modelo de regressão, ou seja, quão bem o modelo de regressão é capaz de “ajustar” o conjunto de dados.

Veja como interpretar cada um dos números nesta seção:

Vários Rs

Este é o coeficiente de correlação . Mede a força da relação linear entre as variáveis preditoras e a variável resposta. Um R múltiplo de 1 indica uma relação linear perfeita, enquanto um R múltiplo de 0 indica nenhuma relação linear. Múltiplo R é a raiz quadrada de R ao quadrado (veja abaixo).

Neste exemplo, o múltiplo R é 0,72855 , o que indica uma relação linear bastante forte entre as horas de estudo e exames preparatórios dos preditores e a nota do exame final da variável resposta.

R-quadrado

Isso geralmente é escrito como r2 e também é conhecido como coeficiente de determinação . Esta é a proporção da variância na variável resposta que pode ser explicada pela variável preditora.

O valor de R ao quadrado pode variar de 0 a 1. Um valor 0 indica que a variável de resposta não pode ser explicada pela variável preditora. Um valor 1 indica que a variável resposta pode ser perfeitamente explicada sem erros pela variável preditora.

Neste exemplo, o R ao quadrado é 0,5307 , o que indica que 53,07% da variância nas notas dos exames finais pode ser explicada pelo número de horas estudadas e pelo número de exames práticos anteriores.

Relacionado: O que é um bom valor de R ao quadrado?

R-quadrado ajustado

Esta é uma versão modificada do R-quadrado que foi ajustada com base no número de preditores no modelo. É sempre menor que R ao quadrado. O R-quadrado ajustado pode ser útil para comparar o ajuste de diferentes modelos de regressão entre si.

Neste exemplo, o R ao quadrado ajustado é 0,4265.

Erro padrão de regressão

O erro padrão da regressão é a distância média entre os valores observados e a linha de regressão. Neste exemplo, os valores observados desviam-se em média 7,3267 unidades da linha de regressão.

Relacionado: Compreendendo o erro padrão da regressão

Comentários

Este é simplesmente o número de observações em nosso conjunto de dados. Neste exemplo, o número total de observações é 12 .

Testando a significância geral do modelo de regressão

A seção a seguir mostra os graus de liberdade, soma dos quadrados, média dos quadrados, estatística F e significância geral do modelo de regressão.

Veja como interpretar cada um dos números nesta seção:

Graus de liberdade de regressão

Este número é igual a: o número de coeficientes de regressão – 1. Neste exemplo, temos um termo original e duas variáveis preditoras, portanto temos três coeficientes de regressão no total, o que significa que os graus de liberdade da regressão são 3 – 1 = 2 .

Graus totais de liberdade

Este número é igual a: o número de observações – 1. Neste exemplo, temos 12 observações, então o número total de graus de liberdade é 12 – 1 = 11 .

Graus residuais de liberdade

Este número é igual a: df total – df de regressão. Neste exemplo, os graus de liberdade residuais são 11 – 2 = 9 .

Quadrados médios

Os quadrados médios da regressão são calculados por regressão SS/regressão df. Neste exemplo, regressão MS = 546.53308 / 2 = 273.2665 .

Os quadrados médios residuais são calculados por SS residual/df residual. Neste exemplo, MS residual = 483,1335 / 9 = 53,68151 .

Estatística F

A estatística f é calculada como regressão MS/residual MS. Esta estatística indica se o modelo de regressão proporciona um melhor ajuste aos dados do que um modelo que não contém variáveis independentes.

Essencialmente, testa se o modelo de regressão como um todo é útil. Geralmente, se nenhuma das variáveis preditoras no modelo for estatisticamente significativa, a estatística F geral também não será estatisticamente significativa.

Neste exemplo, a estatística F é 273,2665 / 53,68151 = 5,09 .

Importância de F (valor P)

O último valor da tabela é o valor p associado à estatística F. Para ver se o modelo de regressão geral é significativo, você pode comparar o valor p com um nível de significância; as escolhas comuns são 0,01, 0,05 e 0,10.

Se o valor p estiver abaixo do nível de significância, há evidências suficientes para concluir que o modelo de regressão se ajusta melhor aos dados do que o modelo sem variável preditora. Este resultado é positivo porque significa que as variáveis preditoras do modelo realmente melhoram o ajuste do modelo.

Neste exemplo, o valor p é 0,033 , que está abaixo do nível de significância comum de 0,05. Isso indica que o modelo de regressão como um todo é estatisticamente significativo, ou seja, o modelo se ajusta melhor aos dados do que o modelo sem variáveis preditoras.

Testando a significância geral do modelo de regressão

A seção final apresenta as estimativas dos coeficientes, erro padrão das estimativas, estatística t, valores de p e intervalos de confiança para cada termo do modelo de regressão.

Veja como interpretar cada um dos números nesta seção:

Coeficientes

Os coeficientes nos fornecem os números necessários para escrever a equação de regressão estimada:

y chapéu = b 0 + b 1 x 1 + b 2 x 2 .

Neste exemplo, a equação de regressão estimada é:

nota do exame final = 66,99 + 1,299 (horas de estudo) + 1,117 (exames preparatórios)

Cada coeficiente individual é interpretado como o aumento médio na variável de resposta para cada aumento de uma unidade em uma determinada variável preditora, assumindo que todas as outras variáveis preditoras permanecem constantes. Por exemplo, para cada hora adicional estudada, o aumento médio esperado na nota do exame final é de 1.299 pontos, assumindo que o número de exames preparatórios realizados permanece constante.

O intercepto é interpretado como a nota média esperada no exame final de um aluno que estuda zero horas e não realiza provas preparatórias. Neste exemplo, espera-se que um aluno obtenha uma pontuação de 66,99 se estudar zero horas e não fizer exames preparatórios. Tenha cuidado ao interpretar a interceptação de um resultado de regressão, pois nem sempre faz sentido fazê-lo.

Por exemplo, em alguns casos, a intercepção pode revelar-se um número negativo, que muitas vezes não tem uma interpretação óbvia. Isso não significa que o modelo esteja errado, apenas significa que a interceptação em si não deve ser interpretada como significando alguma coisa.

Erro padrão, estatísticas t e valores p

O erro padrão é uma medida da incerteza em torno da estimativa do coeficiente para cada variável.

O t-stat é simplesmente o coeficiente dividido pelo erro padrão. Por exemplo, o t-stat para horas de estudo é 1,299/0,417 = 3,117.

A próxima coluna mostra o valor p associado ao t-stat. Este número nos diz se uma determinada variável de resposta é significativa no modelo. Neste exemplo, vemos que o valor p para horas de estudo é 0,012 e o valor p para exames preparatórios é 0,304. Isso indica que as horas de estudo são um preditor significativo da nota do exame final, ao contrário dos exames práticos .

Intervalo de confiança para estimativas de coeficientes

As duas últimas colunas da tabela fornecem os limites inferior e superior de um intervalo de confiança de 95% para as estimativas dos coeficientes.

Por exemplo, a estimativa do coeficiente para horas de estudo é 1,299, mas há alguma incerteza em torno desta estimativa. Nunca poderemos saber com certeza se este é o coeficiente exato. Portanto, um intervalo de confiança de 95% nos dá uma faixa de valores prováveis para o coeficiente verdadeiro.

Neste caso, o intervalo de confiança de 95% para horas de estudo é (0,356; 2,24). Observe que este intervalo de confiança não contém o número “0”, o que significa que temos plena certeza de que o verdadeiro valor do coeficiente de horas de estudo é diferente de zero, ou seja, um número positivo.

Em contrapartida, o intervalo de confiança de 95% para os exames preparatórios é (-1,201, 3,436). Note-se que este intervalo de confiança contém o número “0”, o que significa que o verdadeiro valor do coeficiente dos exames preparatórios poderia ser zero, ou seja, não significativo na previsão do resultado do exame final.

Recursos adicionais

Compreendendo a hipótese nula para regressão linear
Compreendendo o teste F para significância geral na regressão
Como relatar resultados de regressão

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *