Às vezes você pode querer remover a coluna de índice de um DataFrame do pandas em Python. Como os DataFrames e Series do pandas sempre têm um índice, você não pode descartar o índice, mas pode redefini-lo usando o seguinte trecho...
Boosting é uma técnica de aprendizado de máquina que demonstrou produzir modelos com alta precisão preditiva. Uma das maneiras mais comuns de implementar o boosting na prática é usar XGBoost , abreviação de “extreme gradiente boosting”. Este tutorial fornece um exemplo...
Muitas vezes, nas estatísticas, queremos responder a perguntas como: Qual é a renda familiar média em uma determinada cidade? Qual é o peso médio de uma determinada espécie de tartaruga? Qual é a frequência média em jogos de futebol universitário? Em...
Um coeficiente de correlação de Pearson mede a associação linear entre duas variáveis. Sempre assume um valor entre -1 e 1 onde: -1 indica uma correlação linear perfeitamente negativa entre duas variáveis 0 indica nenhuma correlação linear entre duas variáveis 1...
Para normalizar valores em um conjunto de dados entre 0 e 100, você pode usar a seguinte fórmula: z i = (x i – min(x)) / (max(x) – min(x)) * 100 Ouro: z i : o i-ésimo valor normalizado no conjunto...
Nas estatísticas, uma observação é simplesmente uma ocorrência de algo que você mede. Por exemplo, suponha que você esteja medindo o peso de uma determinada espécie de tartaruga. Cada tartaruga para a qual você coleta o peso conta como uma observação....
A análise de componentes principais, muitas vezes abreviada como PCA, é uma técnica de aprendizado de máquina não supervisionada que busca encontrar os componentes principais – combinações lineares dos preditores originais – que explicam uma grande parte da variação em um...
Uma ANOVA unidirecional é usada para determinar se há ou não uma diferença estatisticamente significativa entre as médias de três ou mais grupos independentes. Se o valor p geral da tabela ANOVA estiver abaixo de um certo nível de significância, então...
Uma ANOVA unidirecional é usada para determinar se há ou não uma diferença estatisticamente significativa entre as médias de três ou mais grupos independentes. Se o valor p geral da tabela ANOVA estiver abaixo de um certo nível de significância, então...
Às vezes você pode querer adicionar um array NumPy como uma nova coluna a um DataFrame do pandas. Felizmente, você pode fazer isso facilmente usando a seguinte sintaxe: df[' new_column '] = array_name. tolist () Este tutorial mostra alguns exemplos de...