Come creare una matrice di correlazione in stata


Nelle statistiche, spesso cerchiamo di comprendere la relazione tra due variabili. Ad esempio, potremmo voler comprendere la relazione tra il numero di ore di studio di uno studente e il voto ricevuto all’esame.

Un modo per quantificare questa relazione è utilizzare il coefficiente di correlazione di Pearson , che è una misura dell’associazione lineare tra due variabili . Ha un valore compreso tra -1 e 1 dove:

  • -1 indica una correlazione lineare perfettamente negativa tra due variabili
  • 0 indica alcuna correlazione lineare tra due variabili
  • 1 indica una correlazione lineare perfettamente positiva tra due variabili

Quanto più il coefficiente di correlazione si allontana da zero, tanto più forte è la relazione tra le due variabili.

Ma in alcuni casi, vogliamo comprendere la correlazione tra più coppie di variabili. In questi casi, possiamo creare una matrice di correlazione , ovvero una tabella quadrata che mostra i coefficienti di correlazione tra diverse combinazioni di variabili a coppie.

In questo tutorial spieghiamo come creare una matrice di correlazione in Stata.

Come creare una matrice di correlazione in Stata

Il comando corr può essere utilizzato per produrre una matrice di correlazione per un particolare set di dati in Stata.

Per illustrare ciò, carichiamo i dati del censimento del 1980 in Stata digitando quanto segue nella casella di comando:

utilizzare https://www.stata-press.com/data/r13/census13

Possiamo quindi ottenere un breve riepilogo del set di dati digitando quanto segue nella casella di comando:

riassumere

Ciò produce la seguente tabella:

Matrice di correlazione in Stata

Vediamo che il set di dati contiene nove variabili diverse. Per creare una matrice di correlazione per ogni combinazione di variabili a coppie nel set di dati, possiamo inserire quanto segue nella casella di comando:

corr

Ciò produce la seguente matrice di correlazione:

Esempio di matrice di correlazione in Stata

I numeri mostrati nella tabella rappresentano i coefficienti di correlazione di Pearson per ciascuna combinazione di variabili a coppie. Ad esempio, la correlazione tra popolazione e stato è -0,0540 . Ciò indica che queste due variabili sono leggermente correlate negativamente.

Da notare che le correlazioni lungo le diagonali della tabella sono 1.0000 ciascuna, poiché ogni variabile è perfettamente correlata con se stessa.

È inoltre possibile creare una matrice di correlazione solo per un determinato sottoinsieme di variabili in un set di dati specificando le variabili dopo il comando corr . Ad esempio, ecco come creare una matrice di correlazione solo per le variabili pop , medage e regione :

regione del messaggio pop corretto

Ciò produce la seguente matrice di correlazione solo per queste tre variabili:

Esempio di matrice di correlazione in Stata

È anche possibile posizionare una stella accanto ai coefficienti di correlazione statisticamente significativi ad un certo livello di significatività utilizzando il comando pwcorr (che produce lo stesso risultato di corr ) con il comando star() .

Ad esempio, il codice seguente produce una matrice di correlazione per ciascuna variabile nel set di dati del censimento e posiziona una stella accanto ai coefficienti di correlazione che sono statisticamente significativi a α = 0,05:

pwcorr, stella (.05)

Matrice di correlazione con significatività statistica in Stata

Si noti come molti dei coefficienti di correlazione nella tabella siano statisticamente significativi per α = 0,05. Potremmo impostare α su qualsiasi numero desideriamo, ma le scelte comuni sono 0,01, 0,05 e 0,10.

In generale, quanto più basso è il valore di α, tanto meno statisticamente significativi saranno i coefficienti di correlazione. Ad esempio, supponiamo di impostare α = 0,01.

pwcorr, stella (.01)

Matrice di correlazione in Stata

Nota come meno coefficienti di correlazione hanno una stella accanto.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *