Como criar uma matriz de correlação no stata
Nas estatísticas, muitas vezes procuramos compreender a relação entre duas variáveis. Por exemplo, podemos querer compreender a relação entre o número de horas que um aluno estuda e a nota que recebe no exame.
Uma forma de quantificar esta relação é utilizar o coeficiente de correlação de Pearson , que é uma medida da associação linear entre duas variáveis . Tem um valor entre -1 e 1 onde:
- -1 indica uma correlação linear perfeitamente negativa entre duas variáveis
- 0 indica nenhuma correlação linear entre duas variáveis
- 1 indica uma correlação linear perfeitamente positiva entre duas variáveis
Quanto mais longe o coeficiente de correlação estiver de zero, mais forte será a relação entre as duas variáveis.
Mas, em alguns casos, queremos compreender a correlação entre múltiplos pares de variáveis. Nestes casos, podemos criar uma matriz de correlação , que é uma tabela quadrada que mostra os coeficientes de correlação entre várias combinações de variáveis aos pares.
Neste tutorial explicamos como criar uma matriz de correlação no Stata.
Como criar uma matriz de correlação no Stata
O comando corr pode ser usado para produzir uma matriz de correlação para um conjunto de dados específico no Stata.
Para ilustrar isso, vamos carregar os dados do censo de 1980 no Stata digitando o seguinte na caixa de comando:
use https://www.stata-press.com/data/r13/census13
Podemos então obter um rápido resumo do conjunto de dados digitando o seguinte na caixa de comando:
resumir
Isso produz a seguinte tabela:
Vemos que o conjunto de dados contém nove variáveis diferentes. Para criar uma matriz de correlação para cada combinação de variáveis no conjunto de dados, podemos inserir o seguinte na caixa de comando:
correto
Isso produz a seguinte matriz de correlação:
Os números mostrados na tabela representam os coeficientes de correlação de Pearson para cada combinação pareada de variáveis. Por exemplo, a correlação entre população e estado é -0,0540 . Isso indica que essas duas variáveis estão ligeiramente correlacionadas negativamente.
Observe que as correlações ao longo das diagonais da tabela são cada uma de 1,0000, uma vez que cada variável está perfeitamente correlacionada consigo mesma.
Você também pode criar uma matriz de correlação apenas para um determinado subconjunto de variáveis em um conjunto de dados especificando as variáveis após o comando corr . Por exemplo, veja como criar uma matriz de correlação apenas para as variáveis pop , medage e região :
região de mensagem pop corr
Isso produz a seguinte matriz de correlação apenas para essas três variáveis:
Também é possível colocar uma estrela ao lado dos coeficientes de correlação que são estatisticamente significativos em um determinado nível de significância usando o comando pwcorr (que produz o mesmo resultado que corr ) com o comando star() .
Por exemplo, o código a seguir produz uma matriz de correlação para cada variável no conjunto de dados do censo e coloca uma estrela ao lado dos coeficientes de correlação que são estatisticamente significativos em α = 0,05:
pwcorr, estrela (0,05)
Observe como vários dos coeficientes de correlação na tabela são estatisticamente significativos em α = 0,05. Poderíamos definir α como qualquer número que quisermos, mas as escolhas comuns são 0,01, 0,05 e 0,10.
Em geral, quanto menor o valor de α, menos significativos serão os coeficientes de correlação estatisticamente. Por exemplo, suponha que definimos α = 0,01.
pwcorr, estrela (0,01)
Observe como menos coeficientes de correlação têm uma estrela próxima a eles.