Clustering é uma técnica de aprendizado de máquina que tenta encontrar grupos de observações dentro de um conjunto de dados. O objetivo é encontrar clusters tais que as observações dentro de cada cluster sejam bastante semelhantes entre si, enquanto as observações...
A variância é uma forma de medir quão bem os valores dos dados estão distribuídos em torno da média. A fórmula para encontrar a variância de uma população é: σ 2 = Σ (x i – μ) 2 / N onde...
Clustering é uma técnica de aprendizado de máquina que tenta encontrar grupos ou clusters de observações dentro de um conjunto de dados. O objetivo é encontrar clusters tais que as observações dentro de cada cluster sejam bastante semelhantes entre si, enquanto...
Um resíduo de estudante é simplesmente um resíduo dividido pelo seu desvio padrão estimado. Na prática, geralmente dizemos que qualquer observação num conjunto de dados cujo resíduo de estudante seja maior que um valor absoluto de 3 é um outlier. Podemos...
Um resíduo de estudante é simplesmente um resíduo dividido pelo seu desvio padrão estimado. Na prática, geralmente dizemos que qualquer observação num conjunto de dados cujo resíduo de estudante seja maior que um valor absoluto de 3 é um outlier. Podemos...
Uma transformação box-cox é um método comumente usado para transformar um conjunto de dados distribuído não normalmente em um conjunto distribuído mais normalmente . A ideia básica por trás deste método é encontrar um valor para λ tal que os dados...
A distância de Manhattan entre dois vetores, A e B , é calculada da seguinte forma: Σ|a i – b i | onde i é o i- ésimo elemento de cada vetor. Essa distância é usada para medir a dissimilaridade entre...
A distância de Minkowski entre dois vetores, A e B , é calculada da seguinte forma: (Σ|a i – b i | p ) 1/p onde i é o i- ésimo elemento de cada vetor e p é um número inteiro....
Quando você realiza uma análise de regressão ou ANOVA em R, as tabelas de saída contêm valores p para as variáveis usadas na análise junto com os códigos de significância correspondentes . Esses códigos de significância são exibidos como uma série...
Para ajustar um modelo de regressão linear em R, podemos usar o comando lm() . Para exibir a saída do modelo de regressão, podemos então usar o comando summary() . Este tutorial explica como interpretar cada valor da saída da regressão...