Cos'è l'analisi univariata? (definizione & #038; esempio)


Il termine analisi univariata si riferisce all’analisi di una variabile. Puoi ricordarlo perché il prefisso “uni” significa “uno”.

L’obiettivo dell’analisi univariata è comprendere la distribuzione dei valori per una singola variabile. È possibile confrontare questo tipo di analisi con quanto segue:

  • Analisi bivariata : analisi di due variabili.
  • Analisi multivariata: analisi di due o più variabili.

Ad esempio, supponiamo di avere il seguente set di dati:

Potremmo scegliere di eseguire un’analisi univariata su una delle singole variabili nel set di dati per comprenderne meglio la distribuzione dei valori.

Ad esempio, possiamo scegliere di eseguire un’analisi univariata sulla variabile Dimensione familiare :

Esempio di analisi univariata

Esistono tre modi comuni per eseguire l’analisi univariata:

1. Statistiche riassuntive

Il modo più comune per eseguire un’analisi univariata è descrivere una variabile utilizzando statistiche riassuntive .

Esistono due tipi comuni di statistiche riassuntive:

  • Misure di tendenza centrale : questi numeri descrivono dove si trova il centro di un set di dati. Gli esempi includono media e mediana .
  • Misure di dispersione : questi numeri descrivono la distribuzione dei valori nel set di dati. Gli esempi includono intervallo , intervallo interquartile , deviazione standard e varianza .

2. Distribuzioni di frequenza

Un altro modo per eseguire un’analisi univariata è creare una distribuzione di frequenza , che descrive la frequenza con cui compaiono valori diversi in un set di dati.

3. Grafica

Un altro modo per eseguire l’analisi univariata è creare grafici per visualizzare la distribuzione dei valori per una determinata variabile.

Esempi comuni includono:

  • Boxplot
  • Istogrammi
  • Curve di densità
  • Camembert

I seguenti esempi mostrano come eseguire ciascun tipo di analisi univariata utilizzando la variabile Dimensioni della famiglia dal nostro set di dati menzionato in precedenza:

Esempio di analisi univariata

Statistiche riassuntive

Possiamo calcolare le seguenti misure di tendenza centrale della dimensione familiare:

  • Media (il valore medio): 3,8
  • Mediana (il valore medio): 4

Questi valori ci danno un’idea di dove si trova il valore “centrale”.

Possiamo anche calcolare le seguenti misure di dispersione:

  • Intervallo (la differenza tra massimo e minimo): 6
  • Scala interquartile (la distribuzione del 50% medio dei valori): 2.5
  • Deviazione standard (una misura media dello spread): 1,87

Questi valori ci danno un’idea della distribuzione dei valori di questa variabile.

Distribuzione di frequenza

Possiamo anche creare la seguente tabella di distribuzione della frequenza per riassumere la frequenza con cui si verificano valori diversi:

Ciò ci consente di vedere rapidamente che la dimensione familiare più comune è di 4 persone .

Risorsa: è possibile utilizzare questo calcolatore di frequenza per produrre automaticamente una distribuzione di frequenza per qualsiasi variabile.

Grafica

Possiamo creare i seguenti grafici per aiutarci a visualizzare la distribuzione dei valori per la dimensione della famiglia:

1. Trama a scatola

Un boxplot è un grafico che mostra il riepilogo di cinque cifre di un set di dati.

Il riepilogo in cinque numeri include:

  • Il valore minimo
  • Il primo quartile
  • Il valore mediano
  • Il terzo quartile
  • Il valore massimo

Ecco come apparirebbe un boxplot per la variabile Dimensioni della famiglia:

Risorsa: puoi utilizzare questo generatore di boxplot per produrre automaticamente un boxplot per qualsiasi variabile.

2. Istogramma

Un istogramma è un tipo di grafico che utilizza barre verticali per visualizzare le frequenze. Questo tipo di grafico è un modo utile per visualizzare la distribuzione dei valori in un set di dati.

Ecco come apparirebbe un istogramma per la variabile Dimensioni della famiglia:

3. Curva di densità

Una curva di densità è una curva su un grafico che rappresenta la distribuzione dei valori in un insieme di dati.

È particolarmente utile per visualizzare la “forma” di una distribuzione, compreso se una distribuzione presenta o meno uno o più “picchi” di valori frequenti e se la distribuzione è inclinata o meno a sinistra o a destra .

Ecco come apparirebbe una curva di densità per la variabile Dimensioni della famiglia:

4. Grafico a torta

Un grafico a torta è un tipo di grafico a forma di cerchio e utilizza le sezioni per rappresentare le proporzioni di un intero.

Ecco come apparirebbe un grafico a torta per la variabile Dimensioni della famiglia:

A seconda del tipo di dati, uno di questi grafici può essere più utile degli altri per visualizzare la distribuzione dei valori.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *