Analisi univariata o multivariata: qual è la differenza?
Il termine analisi univariata si riferisce all’analisi di una variabile. Puoi ricordarlo perché il prefisso “uni” significa “uno”.
Con il termine analisi multivariata si intende l’analisi di più variabili. Puoi ricordarlo perché il prefisso “multi” significa “più di uno”.
Esistono tre modi comuni per eseguire l’analisi univariata :
1. Statistiche riassuntive
- Possiamo calcolare misure di tendenza centrale come la media o la mediana di una variabile.
- Possiamo anche calcolare misure di dispersione come la deviazione standard di una variabile.
2. Distribuzioni di frequenza
- Possiamo creare una distribuzione di frequenza , che descrive la frequenza con cui ciascun valore appare per una variabile.
3. Grafica
- Possiamo creare grafici come boxplot, istogrammi, grafici di densità, ecc. per visualizzare la distribuzione dei valori di una variabile.
Esistono due modi comuni per eseguire l’analisi multivariata :
1. Matrice del grafico a dispersione
- Possiamo creare una matrice di grafico a dispersione, che ci consente di visualizzare la relazione tra ciascuna combinazione di variabili a coppie in un set di dati.
2. Algoritmi di apprendimento automatico
- Possiamo utilizzare un algoritmo di apprendimento supervisionato per adattare un modello come la regressione lineare multipla che quantifica la relazione tra più variabili predittive e una variabile di risposta.
- Possiamo anche utilizzare un algoritmo di apprendimento non supervisionato come l’analisi delle componenti principali per trovare simultaneamente la struttura e le relazioni tra più variabili in un set di dati.
Gli esempi seguenti mostrano come eseguire analisi univariate e multivariate con il seguente set di dati:
Nota : quando si analizzano esattamente due variabili, si parla di analisi bivariata .
Esempio: come eseguire l’analisi univariata
Potremmo scegliere di eseguire un’analisi univariata su una qualsiasi delle singole variabili nel set di dati.
Ad esempio, possiamo scegliere di eseguire un’analisi univariata sulla variabile Dimensione familiare :
Possiamo calcolare le seguenti misure di tendenza centrale della dimensione familiare:
- Media (il valore medio): 3,8
- Mediana (il valore medio): 4
Questi valori ci danno un’idea di dove si trova il valore “centrale”.
Possiamo anche calcolare le seguenti misure di dispersione:
- Intervallo (la differenza tra massimo e minimo): 6
- Scala interquartile (la distribuzione del 50% medio dei valori): 2.5
- Deviazione standard (una misura media dello spread): 1,87
Questi valori ci danno un’idea della distribuzione dei valori di questa variabile.
Possiamo anche creare la seguente tabella di distribuzione della frequenza per riassumere la frequenza con cui si verificano valori diversi:
Possiamo anche creare un boxplot per visualizzare la distribuzione dei valori in base alla dimensione del nucleo familiare:
In alternativa, potremmo creare un istogramma per visualizzare la distribuzione dei valori:
Calcolando queste misurazioni e creando questi grafici, possiamo capire meglio come sono distribuiti i valori per la variabile Dimensione della famiglia.
Esempio: come eseguire l’analisi multivariata
Supponiamo ancora una volta di avere lo stesso set di dati:
Una forma semplice di analisi multivariata che potremmo eseguire su questo set di dati è creare una matrice di grafico a dispersione , ovvero una matrice che mostra un grafico a dispersione per ogni combinazione a coppie di variabili numeriche nel set di dati.
Potremmo creare questo tipo di matrice per visualizzare contemporaneamente la relazione tra dimensione del nucleo familiare, reddito annuo e numero di animali domestici.
Risorsa : dai un’occhiata a questo tutorial per vedere come creare una matrice di grafico a dispersione in R.
Un altro modo per eseguire l’analisi multivariata su questo set di dati sarebbe quello di adattare un modello di regressione lineare multipla . Ad esempio, potremmo creare un modello di regressione che utilizzi le dimensioni del nucleo familiare e il numero di animali domestici per prevedere il reddito annuale.
Risorsa : dai un’occhiata a questo tutorial per vedere come eseguire la regressione lineare multipla in R.
Un altro modo per eseguire l’analisi multivariata su questo set di dati sarebbe eseguire l’analisi delle componenti principali , che ci consente di trovare la struttura sottostante nel set di dati.
Risorsa : dai un’occhiata a questo tutorial per vedere come eseguire l’analisi dei componenti principali in R.
Conclusione
Ecco un breve riassunto di questo articolo:
- L’analisi univariata è l’analisi di una variabile.
- L’analisi multivariata è l’analisi di più di una variabile.
- Esistono diversi modi per eseguire ciascun tipo di analisi a seconda dell’obiettivo finale.
- Nel mondo reale, spesso eseguiamo entrambi i tipi di analisi su un singolo set di dati.
- L’analisi univariata ci consente di comprendere la distribuzione dei valori per una variabile mentre l’analisi multivariata ci consente di comprendere la relazione tra più variabili.