Como obter valores previstos e resíduos no stata
A regressão linear é um método que podemos usar para compreender a relação entre uma ou mais variáveis explicativas e uma variável de resposta.
Quando realizamos regressão linear em um conjunto de dados, obtemos uma equação de regressão que pode ser usada para prever os valores de uma variável resposta, dados os valores das variáveis explicativas.
Podemos então medir a diferença entre os valores previstos e os valores reais para obter os resíduos de cada previsão. Isso nos ajuda a ter uma ideia de quão bem nosso modelo de regressão prevê os valores de resposta.
Este tutorial explica como obter valores previstos e resíduos para um modelo de regressão no Stata.
Exemplo: Como obter valores e resíduos previstos
Para este exemplo, usaremos o conjunto de dados integrado do Stata chamado auto . Usaremos mpg e deslocamento como variáveis explicativas e preço como variável de resposta.
Use as etapas a seguir para realizar uma regressão linear e, em seguida, obter os valores previstos e os resíduos para o modelo de regressão.
Etapa 1: Carregar e exibir dados.
Primeiro, carregaremos os dados usando o seguinte comando:
uso automático do sistema
A seguir, obteremos um rápido resumo dos dados usando o seguinte comando:
resumir
Etapa 2: ajuste o modelo de regressão.
A seguir, usaremos o seguinte comando para ajustar o modelo de regressão:
preço de regressão deslocamento mpg
A equação de regressão estimada é:
preço estimado = 6672,766 -121,1833*(mpg) + 10,50885*(deslocamento)
Etapa 3: Obtenha os valores previstos.
Podemos obter os valores previstos usando o comando prever e armazenando esses valores em uma variável com o nome que desejarmos. Neste caso, usaremos o nome pred_price :
prever pred_price
Podemos exibir os preços reais e os preços previstos lado a lado usando o comando list . Existem 74 valores previstos no total, mas exibiremos apenas os 10 primeiros usando o comando in 1/10 :
preço de tabela pred_price em 1/10
Etapa 4: obtenha o resíduo.
Podemos obter os resíduos de cada previsão usando o comando residuals e armazenando esses valores em uma variável com o nome que quisermos. Neste caso, usaremos o nome resid_price :
prever preço_residência, resíduos
Podemos exibir o preço real, o preço esperado e os resíduos lado a lado usando o comando de lista novamente:
preço de tabela pred_price resid_price em 1/10
Etapa 5: crie um gráfico de valores previstos em relação aos resíduos.
Por fim, podemos criar um gráfico de dispersão para visualizar a relação entre os valores previstos e os resíduos:
dispersão reside_price pred_price
Podemos ver que, em média, os resíduos tendem a aumentar à medida que os valores ajustados aumentam. Isto pode ser um sinal de heterocedasticidade – quando a distribuição dos resíduos não é constante em cada nível de resposta.
Poderíamos testar formalmente a heterocedasticidade usando o teste de Breusch-Pagan e resolver isso usando erros padrão robustos .