Introdução à análise discriminante linear
Quando temos um conjunto de variáveis preditoras e queremos classificar uma variável de resposta em uma de duas classes, geralmente usamos regressão logística .
Por exemplo, podemos usar regressão logística no seguinte cenário:
- Queremos usar a pontuação de crédito e o saldo bancário para prever se um determinado cliente deixará de pagar um empréstimo. (Variável de resposta = “Padrão” ou “Sem padrão”)
No entanto, quando uma variável de resposta tem mais de duas classes possíveis, geralmente preferimos usar um método conhecido como análise discriminante linear , muitas vezes chamado de LDA.
Por exemplo, podemos usar LDA no seguinte cenário:
- Queremos usar pontos por jogo e rebotes por jogo para prever se um determinado jogador de basquete do ensino médio será aceito em uma das três escolas: Divisão 1, Divisão 2 ou Divisão 3.
Embora os modelos LDA e de regressão logística sejam usados para classificação , verifica-se que o LDA é muito mais estável do que a regressão logística quando se trata de fazer previsões para múltiplas classes e é, portanto, o algoritmo preferido a ser usado quando a variável de resposta pode levar mais de dois Aulas.
O LDA também funciona melhor quando os tamanhos das amostras são pequenos em comparação com a regressão logística, tornando-o um método preferido quando você não consegue coletar amostras grandes.
Como criar modelos LDA
O LDA faz as seguintes suposições sobre um determinado conjunto de dados:
(1) Os valores de cada variável preditora são normalmente distribuídos . Ou seja, se criássemos um histograma para visualizar a distribuição de valores para um determinado preditor, ele teria aproximadamente um “formato de sino”.
(2) Cada variável preditora tem a mesma variância . Isso quase nunca acontece em dados do mundo real, e é por isso que normalmente dimensionamos cada variável para ter a mesma média e variância antes de realmente ajustar um modelo LDA.
Uma vez verificadas estas hipóteses, o LDA estima então os seguintes valores:
- μ k : A média de todas as observações de treinamento da k-ésima classe.
- σ 2 : A média ponderada das variâncias amostrais para cada uma das k classes.
- π k : A proporção de observações de treinamento que pertencem à k-ésima classe.
O LDA então insere esses números na seguinte fórmula e atribui cada observação X = x à classe para a qual a fórmula produz o maior valor:
d k (x) = x * (μ k /σ 2 ) – (μ k 2 /2σ 2 ) + log(π k )
Observe que LDA tem linear em seu nome porque o valor produzido pela função acima vem do resultado de funções lineares de x.
Como preparar dados para LDA
Certifique-se de que seus dados atendam aos seguintes requisitos antes de aplicar um modelo LDA a eles:
1. A variável de resposta é categórica . Os modelos LDA são projetados para serem utilizados em problemas de classificação, ou seja, onde a variável resposta pode ser colocada em classes ou categorias.
2. As variáveis preditoras seguem uma distribuição normal . Primeiro, verifique se cada variável preditora tem distribuição aproximadamente normal. Caso contrário, você pode optar por primeiro transformar os dados para tornar a distribuição mais normal.
3. Cada variável preditora tem a mesma variância . Conforme mencionado anteriormente, o LDA assume que cada variável preditora tem a mesma variância. Como isso raramente acontece na prática, é uma boa ideia dimensionar cada variável no conjunto de dados de forma que tenha média 0 e desvio padrão 1.
4. Considere valores discrepantes extremos. Certifique-se de verificar valores extremos no conjunto de dados antes de aplicar o LDA. Normalmente, você pode verificar visualmente valores discrepantes simplesmente usando gráficos de caixa ou gráficos de dispersão.
Exemplos de uso de análise discriminante linear
Os modelos LDA são aplicados em uma ampla variedade de domínios da vida real. aqui estão alguns exemplos:
1. Comercialização . As empresas de varejo costumam usar o LDA para classificar os compradores em uma das diversas categorias. Por exemplo, eles podem criar um modelo LDA para prever se um determinado comprador gastará ou não baixo, médio ou alto usando variáveis preditoras como renda , gasto anual total e tamanho da família .
2.Médico . Hospitais e equipes de pesquisa médica costumam usar o LDA para prever se um determinado grupo de células anormais tem probabilidade de causar doenças leves, moderadas ou graves.
3. Desenvolvimento de produto . As empresas podem criar modelos LDA para prever se um determinado consumidor usará seu produto diariamente, semanalmente, mensalmente ou anualmente, com base em diversas variáveis preditoras, como gênero , renda anual e frequência de uso de produtos similares .
4. Ecologia. Os pesquisadores podem criar modelos LDA para prever se um determinado recife de coral terá saúde geral boa, moderada, ruim ou ameaçada, com base em uma variedade de variáveis preditoras, como tamanho , contaminação anual e perda . idade .
LDA em R e Python
Os tutoriais a seguir fornecem exemplos passo a passo sobre como realizar análise discriminante linear em R e Python:
Análise Discriminante Linear em R (passo a passo)
Análise discriminante linear em Python (passo a passo)