Introduzione all'analisi discriminante lineare
Quando disponiamo di un insieme di variabili predittive e vogliamo classificare una variabile di risposta in una delle due classi, generalmente utilizziamo la regressione logistica .
Ad esempio, possiamo utilizzare la regressione logistica nel seguente scenario:
- Vogliamo utilizzare il punteggio di credito e il saldo bancario per prevedere se un determinato cliente andrà in default su un prestito. (Variabile di risposta = “Predefinito” o “Nessun valore predefinito”)
Tuttavia, quando una variabile di risposta ha più di due classi possibili, generalmente preferiamo utilizzare un metodo noto come analisi discriminante lineare , spesso chiamato LDA.
Ad esempio, possiamo utilizzare LDA nel seguente scenario:
- Vogliamo utilizzare i punti per partita e i rimbalzi per partita per prevedere se un determinato giocatore di basket delle scuole superiori sarà accettato in una delle tre scuole: Divisione 1, Divisione 2 o Divisione 3.
Sebbene per la classificazione vengano utilizzati sia il modello LDA che quello di regressione logistica, risulta che l’LDA è molto più stabile della regressione logistica quando si tratta di fare previsioni per più classi ed è quindi l’algoritmo preferito da utilizzare quando la variabile di risposta può richiedere più di due classi.
L’LDA funziona meglio anche quando le dimensioni del campione sono piccole rispetto alla regressione logistica, rendendolo un metodo preferito quando non è possibile raccogliere campioni di grandi dimensioni.
Come creare modelli LDA
LDA fa le seguenti ipotesi su un dato set di dati:
(1) I valori di ciascuna variabile predittrice sono normalmente distribuiti . Cioè, se creassimo un istogramma per visualizzare la distribuzione dei valori per un dato predittore, avrebbe più o meno una “forma a campana”.
(2) Ciascuna variabile predittrice ha la stessa varianza . Questo non è quasi mai il caso dei dati del mondo reale, motivo per cui in genere ridimensioniamo ciascuna variabile per avere la stessa media e varianza prima di adattare effettivamente un modello LDA.
Una volta verificate queste ipotesi, LDA stima quindi i seguenti valori:
- μ k : La media di tutte le osservazioni di allenamento della kesima classe.
- σ 2 : La media ponderata delle varianze campionarie per ciascuna delle k classi.
- π k : La proporzione di osservazioni di addestramento che appartengono alla classe k-esima .
LDA inserisce quindi questi numeri nella formula seguente e assegna ciascuna osservazione X = x alla classe per la quale la formula produce il valore maggiore:
d k (x) = x * (μ k /σ 2 ) – (μ k 2 /2σ 2 ) + log(π k )
Nota che LDA ha linear nel suo nome perché il valore prodotto dalla funzione sopra deriva dal risultato di funzioni lineari di x.
Come preparare i dati per LDA
Assicurati che i tuoi dati soddisfino i seguenti requisiti prima di applicarvi un modello LDA:
1. La variabile di risposta è categoriale . I modelli LDA sono progettati per essere utilizzati per problemi di classificazione, ovvero in cui la variabile di risposta può essere inserita in classi o categorie.
2. Le variabili predittive seguono una distribuzione normale . Innanzitutto, verificare che ciascuna variabile predittrice sia distribuita approssimativamente normalmente. In caso contrario, puoi scegliere di trasformare prima i dati per rendere la distribuzione più normale.
3. Ciascuna variabile predittrice ha la stessa varianza . Come accennato in precedenza, LDA presuppone che ciascuna variabile predittrice abbia la stessa varianza. Poiché nella pratica ciò accade raramente, è una buona idea ridimensionare ciascuna variabile nel set di dati in modo tale che abbia una media pari a 0 e una deviazione standard pari a 1.
4. Tenere conto dei valori anomali estremi. Assicurati di verificare la presenza di valori anomali estremi nel set di dati prima di applicare LDA. In genere, è possibile verificare visivamente la presenza di valori anomali semplicemente utilizzando box plot o grafici a dispersione.
Esempi di utilizzo dell’analisi discriminante lineare
I modelli LDA vengono applicati in un’ampia varietà di domini nella vita reale. Ecco alcuni esempi:
1. Commercializzazione . Le aziende di vendita al dettaglio utilizzano spesso la LDA per classificare gli acquirenti in una delle diverse categorie. Ad esempio, possono creare un modello LDA per prevedere se un determinato acquirente sarà o meno uno spender basso, medio o alto utilizzando variabili predittive come reddito , spesa annuale totale e dimensioni del nucleo familiare .
2.Medico . Gli ospedali e i gruppi di ricerca medica utilizzano spesso l’LDA per prevedere se un dato gruppo di cellule anomale può portare a una malattia lieve, moderata o grave.
3. Sviluppo del prodotto . Le aziende possono creare modelli LDA per prevedere se un determinato consumatore utilizzerà il proprio prodotto quotidianamente, settimanalmente, mensilmente o annualmente, in base a varie variabili predittive come sesso , reddito annuo e frequenza di utilizzo di prodotti simili .
4. Ecologia. I ricercatori possono creare modelli LDA per prevedere se una data barriera corallina avrà una salute generale buona, moderata, scarsa o in pericolo, sulla base di una varietà di variabili predittive come dimensioni , contaminazione annuale e perdita . età .
LDA in R e Python
I seguenti tutorial forniscono esempi passo passo su come eseguire l’analisi discriminante lineare in R e Python:
Analisi Discriminante Lineare in R (passo dopo passo)
Analisi discriminante lineare in Python (passo dopo passo)