La distribuzione binomiale è una distribuzione di probabilità utilizzata per modellare la probabilità che un certo numero di “successi” si verifichino in un numero fisso di prove. La distribuzione binomiale è appropriata da utilizzare se sono soddisfatte le seguenti tre ipotesi:...
Un dot plot è un tipo di grafico che visualizza le frequenze dei valori in un set di dati utilizzando punti impilati. Spesso quando creiamo un dot plot, vogliamo quantificare il centro e la distribuzione: Centro : il punto centrale del...
Un istogramma è un tipo di grafico che ci consente di visualizzare la distribuzione dei valori in un insieme di dati. L’asse X mostra i valori del set di dati e l’asse Y mostra la frequenza di ciascun valore. A seconda...
Un valore anomalo è un’osservazione anormalmente distante da altri valori in un set di dati. Spesso definiamo un’osservazione come un valore anomalo se è 1,5 volte l’intervallo interquartile al di sopra del terzo quartile o 1,5 volte l’intervallo interquartile al di...
Un intervallo di confidenza è un intervallo di valori che probabilmente contiene un parametro della popolazione con un certo livello di confidenza. Quando riportiamo gli intervalli di confidenza, utilizziamo sempre il seguente formato: IC 95% [LL, UL] Oro LL : Limite...
Un messaggio di avviso che potresti incontrare in R è: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Questo avviso si verifica quando si sta adattando un modello di regressione logistica e le probabilità previste di una o più...
Spesso nella statistica e nell’apprendimento automatico normalizziamo le variabili in modo tale che l’intervallo di valori sia compreso tra 0 e 1. Il motivo più comune per normalizzare le variabili è quando stiamo eseguendo un tipo di analisi multivariata (ovvero vogliamo...
Un’ANOVA (“analisi della varianza”) viene utilizzata per determinare se le medie di tre o più gruppi indipendenti sono uguali o meno. Un’ANOVA utilizza le seguenti ipotesi nulle e alternative: H 0 : tutte le medie dei gruppi sono uguali. H A...
La distanza Manhattan tra due vettori, A e B , si calcola come segue: Σ| Ai – Bi | dove i è l’i- esimo elemento di ciascun vettore. Questa distanza viene utilizzata per misurare la dissomiglianza tra due vettori ed è...
Una deviazione standard aggregata è semplicemente una media ponderata delle deviazioni standard di due o più gruppi indipendenti. Nelle statistiche, appare più comunemente nel test t a due campioni , che viene utilizzato per verificare se le medie di due popolazioni...