Cdf o pdf: qual è la differenza?
Questo tutorial fornisce una semplice spiegazione della differenza tra un PDF (funzione di densità di probabilità) e un CDF (funzione di distribuzione cumulativa) nelle statistiche.
Variabili casuali
Prima di poter definire un PDF o CDF, dobbiamo prima comprendere le variabili casuali.
Una variabile casuale , solitamente indicata con X, è una variabile i cui valori sono i risultati numerici di un processo casuale. Esistono due tipi di variabili casuali: discrete e continue.
Variabili casuali discrete
Una variabile casuale discreta è una variabile che può assumere solo un numero numerabile di valori distinti come 0, 1, 2, 3, 4, 5… 100, 1 milione, ecc. Ecco alcuni esempi di variabili casuali discrete:
- Il numero di volte in cui una moneta esce croce dopo essere stata lanciata 20 volte.
- Il numero di volte in cui un dado si ferma sul numero 4 dopo essere stato lanciato 100 volte.
Variabili casuali continue
Una variabile casuale continua è una variabile che può assumere un numero infinito di valori possibili. Ecco alcuni esempi di variabili casuali continue:
- Altezza di una persona
- Peso di un animale
- Tempo impiegato per percorrere un miglio
Ad esempio, l’altezza di una persona potrebbe essere 60,2 pollici, 65,2344 pollici, 70,431222 pollici, ecc. Esistono infiniti valori possibili per la dimensione.
Regola generale: se riesci a contare il numero di risultati, allora stai lavorando con una variabile casuale discreta (ad esempio contando il numero di volte in cui una moneta esce testa). Ma se puoi misurare il risultato, stai lavorando con una variabile casuale continua (ad esempio misurazione, altezza, peso, tempo, ecc.)
Funzioni di densità di probabilità
Una funzione di densità di probabilità (pdf) ci dice la probabilità che una variabile casuale assuma un certo valore.
Ad esempio, supponiamo di lanciare un dado una volta. Se indichiamo con x il numero su cui si ferma il dado, la funzione di densità di probabilità del risultato può essere descritta come segue:
P(x < 1) : 0
P(x = 1) : 1/6
P(x = 2) : 1/6
P(x = 3) : 1/6
P(x = 4) : 1/6
P(x = 5) : 1/6
P(x = 6) : 1/6
P(x > 6) : 0
Si noti che questo è un esempio di variabile casuale discreta, poiché x può assumere solo valori interi.
Per una variabile casuale continua, non possiamo utilizzare direttamente una PDF, poiché la probabilità che x assuma un valore esatto è zero.
Ad esempio, supponiamo di voler conoscere la probabilità che un hamburger di un particolare ristorante pesi un quarto di libbra (0,25 libbre). Poiché il peso è una variabile continua, può assumere un numero infinito di valori.
Ad esempio, un dato hamburger potrebbe effettivamente pesare 0,250001 libbre, o 0,24 libbre, o 0,2488 libbre. La probabilità che un dato hamburger peserà esattamente 0,25 libbre è essenzialmente zero.
Funzioni di distribuzione cumulativa
Una funzione di distribuzione cumulativa (cdf) ci dice la probabilità che una variabile casuale assuma un valore inferiore o uguale a x .
Ad esempio, supponiamo di lanciare un dado una volta. Se indichiamo con x il numero su cui si ferma il dado, la funzione di distribuzione cumulativa del risultato può essere descritta come segue:
P(x ≤ 0) : 0
P(x ≤ 1) : 1/6
P(x ≤ 2) : 2/6
P(x ≤ 3) : 3/6
P(x ≤ 4) : 4/6
P(x ≤ 5) : 5/6
P(x ≤ 6) : 6/6
P(x > 6) : 0
Nota che la probabilità che x sia inferiore o uguale a 6 è 6/6, che è uguale a 1. Questo perché il dado esce su 1, 2, 3, 4, 5 o 6 con una probabilità del 100%.
Questo esempio utilizza una variabile casuale discreta, ma è possibile utilizzare anche una funzione di densità continua per una variabile casuale continua.
Le funzioni di distribuzione cumulativa hanno le seguenti proprietà:
- La probabilità che una variabile casuale assuma un valore inferiore al minimo valore possibile è zero. Ad esempio, la probabilità che un dado esca su un valore inferiore a 1 è zero.
- La probabilità che una variabile casuale assuma un valore inferiore o uguale al massimo valore possibile è pari a uno. Ad esempio, la probabilità che un dado esca sul valore 1, 2, 3, 4, 5 o 6 è pari a uno. Deve atterrare su uno di questi numeri.
- Il cdf è sempre non decrescente. Vale a dire, la probabilità che un dado cada su un numero minore o uguale a 1 è 1/6, la probabilità che cada su un numero minore o uguale a 2 è 2/6, la probabilità di cadere su un il numero inferiore o uguale a 3 è 3/6, ecc. Le probabilità cumulative sono sempre non decrescenti.
Correlato: è possibile utilizzare un grafico a ogiva per visualizzare una funzione di distribuzione cumulativa.
La relazione tra un CDF e un PDF
In termini tecnici, una funzione di densità di probabilità (pdf) è la derivata di una funzione di distribuzione cumulativa (cdf).
Inoltre, l’area sotto la curva di un pdf tra infinito negativo e x è uguale al valore di x sul cdf.
Per una spiegazione approfondita della relazione tra un pdf e un cdf, nonché la prova del motivo per cui il pdf è il derivato del cdf, fare riferimento a un libro di testo di statistica.