Como fazer previsões com regressão linear
A regressão linear é um método que podemos usar para quantificar a relação entre uma ou mais variáveis preditoras e uma variável de resposta .
Um dos motivos mais comuns para ajustar um modelo de regressão é usar o modelo para prever os valores de novas observações.
Usamos as seguintes etapas para fazer previsões com um modelo de regressão:
- Etapa 1: Colete dados.
- Etapa 2: ajuste um modelo de regressão aos dados.
- Etapa 3: verifique se o modelo se ajusta aos dados.
- Passo 4: Use a equação de regressão ajustada para prever os valores das novas observações.
Os exemplos a seguir mostram como usar modelos de regressão para fazer previsões.
Exemplo 1: Fazendo previsões com um modelo de regressão linear simples
Suponha que um médico colete dados sobre a altura (em polegadas) e o peso (em libras) de 50 pacientes.
Em seguida, ajusta-se um modelo de regressão linear simples usando “peso” como variável preditora e “altura” como variável resposta.
A equação de regressão ajustada é:
Tamanho = 32,7830 + 0,2001*(peso)
Após verificar se os pressupostos do modelo de regressão linear são atendidos, o médico conclui que o modelo se ajusta bem aos dados.
Pode então usar o modelo para prever a altura de novos pacientes com base no peso.
Por exemplo, digamos que um novo paciente pesa 170 libras. Usando o modelo, preveríamos que este paciente teria uma altura de 66,8 polegadas:
Altura = 32,7830 + 0,2001*(170) = 66,8 polegadas
Exemplo 2: Fazendo previsões com um modelo de regressão linear múltipla
Supõe que um economista coleta dados sobre o total de anos de escolaridade, horas semanais trabalhadas e renda anual de 30 pessoas.
Em seguida, ajusta-se um modelo de regressão linear múltipla usando “total de anos de escolaridade” e “horas semanais trabalhadas” como variável preditora e “rendimento anual” como variável resposta.
A equação de regressão ajustada é:
Renda = 1.342,29 + 3.324,33*(anos de escolaridade) + 765,88*(horas semanais trabalhadas)
Após verificar se os pressupostos do modelo de regressão linear são atendidos, o economista conclui que o modelo se ajusta bem aos dados.
Pode então utilizar o modelo para prever o rendimento anual de um novo indivíduo com base no total de anos de escolaridade e nas horas semanais trabalhadas.
Por exemplo, suponha que um novo indivíduo tenha 16 anos de estudo no total e trabalhe em média 40 horas por semana. Usando o modelo, preveríamos que essa pessoa teria uma renda anual de US$ 85.166,77:
Renda = 1.342,29 + 3.324,33*(16) + 765,88*(45) = $ 85.166,77
Sobre o uso de intervalos de confiança
Quando você usa um modelo de regressão para fazer previsões sobre novas observações, o valor previsto pelo modelo de regressão é chamado de estimativa pontual .
Embora a estimativa pontual represente a nossa melhor estimativa do valor da nova observação, é improvável que corresponda exactamente ao valor da nova observação.
Assim, para capturar esta incerteza, podemos criar um intervalo de confiança – um intervalo de valores que provavelmente conterá um parâmetro populacional com um certo nível de confiança.
Por exemplo, em vez de prever que um novo indivíduo terá 66,8 polegadas de altura, podemos criar o seguinte intervalo de confiança:
Intervalo de confiança de 95% = [64,8 polegadas, 68,8 polegadas]
Interpretaríamos esse intervalo como significando que temos 95% de certeza de que a altura real desse indivíduo está entre 64,8 polegadas e 68,8 polegadas.
Precauções a serem tomadas ao fazer previsões
Lembre-se dos seguintes pontos ao usar um modelo de regressão para fazer previsões:
1. Use o modelo apenas para fazer previsões dentro do intervalo de dados usado para estimar o modelo de regressão.
Por exemplo, suponha que estivéssemos ajustando um modelo de regressão usando a variável preditora “peso” e o peso dos indivíduos na amostra que usamos para estimar o modelo estivesse entre 120 e 180 libras.
Não seria válido utilizar o modelo para estimar a altura de um indivíduo com peso de 90 quilos, pois isso está fora da faixa da variável preditora que utilizamos para estimar o modelo.
É possível que a relação entre peso e altura seja diferente fora da faixa de 120 a 180 libras. Portanto, não deveríamos usar o modelo para estimar a altura de um indivíduo que pesa 90 quilos.
2. Use o modelo apenas para fazer previsões para a população amostrada.
Por exemplo, suponha que a população que um economista extrai de uma amostra de todas as pessoas que vivem numa determinada cidade.
Deveríamos usar apenas o modelo de regressão ajustado para prever a renda anual dos indivíduos nesta cidade, uma vez que toda a amostra utilizada para ajustar o modelo vivia nesta cidade.
Recursos adicionais
Introdução à regressão linear simples
Introdução à regressão linear múltipla
Introdução aos intervalos de confiança
As quatro suposições da regressão linear