Como realizar análise bivariada em r (com exemplos)


O termo análise bivariada refere-se à análise de duas variáveis. Você pode se lembrar disso porque o prefixo “bi” significa “dois”.

O objetivo da análise bivariada é compreender a relação entre duas variáveis

Existem três maneiras comuns de realizar análise bivariada:

1. Nuvens de pontos

2. Coeficientes de correlação

3. Regressão linear simples

O exemplo a seguir demonstra como realizar cada um desses tipos de análise bivariada usando o seguinte conjunto de dados que contém informações sobre duas variáveis: (1) Horas gastas estudando e (2) Pontuações em testes obtidas por 20 alunos diferentes:

 #create data frame
df <- data. frame (hours=c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3,
                         3, 4, 4, 5, 5, 6, 6, 6, 7, 8),
                 score=c(75, 66, 68, 74, 78, 72, 85, 82, 90, 82,
                         80, 88, 85, 90, 92, 94, 94, 88, 91, 96))

#view first six rows of data frame
head(df)

  hours score
1 1 75
2 1 66
3 1 68
4 2 74
5 2 78
6 2 72

1. Nuvens de pontos

Podemos usar a seguinte sintaxe para criar um gráfico de dispersão de horas estudadas versus nota do exame em R:

 #create scatterplot of hours studied vs. exam score
plot(df$hours, df$score, pch= 16 , col=' steelblue ',
     main=' Hours Studied vs. Exam Score ',
     xlab=' Hours Studied ', ylab=' Exam Score ')

O eixo x mostra as horas estudadas e o eixo y mostra a nota obtida no exame.

O gráfico mostra que existe uma relação positiva entre as duas variáveis: à medida que aumenta o número de horas de estudo, as notas dos exames também tendem a aumentar.

2. Coeficientes de correlação

Um coeficiente de correlação de Pearson é uma forma de quantificar a relação linear entre duas variáveis.

Podemos usar a função cor() em R para calcular o coeficiente de correlação de Pearson entre duas variáveis:

 #calculate correlation between hours studied and exam score received
cor(df$hours, df$score)

[1] 0.891306

O coeficiente de correlação é 0,891 .

Este valor é próximo de 1, indicando uma forte correlação positiva entre as horas estudadas e a nota do exame.

3. Regressão linear simples

A regressão linear simples é um método estatístico que podemos usar para encontrar a equação da reta que melhor “se ajusta” a um conjunto de dados, que podemos então usar para entender a relação exata entre duas variáveis.

Podemos usar a função lm() em R para ajustar um modelo de regressão linear simples para horas estudadas e resultados de exames recebidos:

 #fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view summary of model
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-6,920 -3,927 1,309 1,903 9,385 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 69.0734 1.9651 35.15 < 2nd-16 ***
hours 3.8471 0.4613 8.34 1.35e-07 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.171 on 18 degrees of freedom
Multiple R-squared: 0.7944, Adjusted R-squared: 0.783 
F-statistic: 69.56 on 1 and 18 DF, p-value: 1.347e-07

A equação de regressão ajustada acaba sendo:

Nota do exame = 69,0734 + 3,8471*(horas estudadas)

Isso nos diz que cada hora adicional estudada está associada a um aumento médio de 3,8471 na nota do exame.

Também podemos usar a equação de regressão ajustada para prever a pontuação que um aluno receberá com base no número total de horas estudadas.

Por exemplo, um aluno que estuda 3 horas deverá obter nota 81,6147 :

  • Nota do exame = 69,0734 + 3,8471*(horas estudadas)
  • Nota do exame = 69,0734 + 3,8471*(3)
  • Resultado do exame = 81,6147

Recursos adicionais

Os tutoriais a seguir fornecem informações adicionais sobre análise bivariada:

Uma introdução à análise bivariada
5 exemplos de dados bivariados na vida real
Uma introdução à regressão linear simples

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *