Cosa significa se una statistica è resiliente?


Una statistica si dice resiliente se non è sensibile a valori estremi.

Ecco due esempi di statistiche resilienti:

  • La mediana
  • Lo spazio interquartile

Ecco alcuni esempi di statistiche che non reggono :

  • La media
  • La deviazione standard
  • Ordinato

L’esempio seguente illustra la differenza tra statistiche resilienti e non resistenti.

Esempio: statistiche resistenti e non resistenti

Supponiamo di avere il seguente set di dati:

Set di dati: 2, 5, 6, 7, 8, 13, 15, 18, 22, 24, 29

Utilizzando una calcolatrice o un software statistico, possiamo calcolare il valore delle seguenti statistiche di detenzione per questo set di dati:

  • Media: 13
  • Intervallo interquartile: 13,5

Possiamo anche calcolare il valore delle seguenti statistiche non resilienti per questo set di dati:

  • Media: 13,54
  • Deviazione standard: 8,82
  • Portata: 27

Consideriamo ora se a questo set di dati fosse stato aggiunto un valore anomalo estremo:

Set di dati: 2, 5, 6, 7, 8, 13, 15, 18, 22, 24, 29, 450

Possiamo nuovamente calcolare il valore delle seguenti statistiche resilienti per questo set di dati:

  • Media: 14
  • Intervallo interquartile: 15,75

Possiamo anche calcolare il valore delle seguenti statistiche non resilienti per questo set di dati:

  • Media: 49,92
  • Deviazione standard: 126,27
  • Gamma: 448

Notate quanto sono cambiate le statistiche di non resistenza semplicemente aggiungendo un valore estremo al set di dati:

Esempio di statistica di resistenza

Al contrario, le statistiche dei combattenti della resistenza non sono cambiate di molto. La mediana e l’intervallo interquartile sono cambiati solo leggermente.

Quando utilizzare le statistiche resilienti

Le statistiche più comunemente utilizzate per misurare il centro e la dispersione dei valori in un set di dati sono rispettivamente la media e la deviazione standard.

Sfortunatamente, entrambe queste statistiche sono sensibili a valori estremi. Pertanto, se in un set di dati sono presenti valori anomali, la media e la deviazione standard non descriveranno accuratamente la distribuzione dei valori in un set di dati.

Si consiglia invece di utilizzare la mediana e l’intervallo interquartile per misurare il centro e la dispersione dei valori in un set di dati se sono presenti valori anomali, poiché entrambe queste statistiche sono robuste .

Risorse addizionali

In che modo i valori anomali influenzano la media?
Quando utilizzare la media rispetto alla mediana
Quando utilizzare l’intervallo interquartile rispetto alla deviazione standard

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *