A volte potresti voler rimuovere la colonna dell’indice da un DataFrame panda in Python. Poiché i panda DataFrames e Series hanno sempre un indice, non puoi effettivamente eliminare l’indice, ma puoi reimpostarlo utilizzando il seguente pezzo di codice: df. reset_index (drop=...
Il boosting è una tecnica di machine learning che ha dimostrato di produrre modelli con elevata precisione predittiva. Uno dei modi più comuni per implementare il potenziamento nella pratica è utilizzare XGBoost , abbreviazione di “extreme gradient boosting”. Questo tutorial fornisce...
Spesso in statistica vogliamo rispondere a domande come: Qual è il reddito familiare medio in una determinata città? Qual è il peso medio di una certa specie di tartaruga? Qual è la frequenza media alle partite di football universitario? In ogni...
Un coefficiente di correlazione di Pearson misura l’associazione lineare tra due variabili. Assume sempre un valore compreso tra -1 e 1 dove: -1 indica una correlazione lineare perfettamente negativa tra due variabili 0 indica alcuna correlazione lineare tra due variabili 1...
Per normalizzare i valori in un set di dati compresi tra 0 e 100, è possibile utilizzare la seguente formula: z i = (x i – min(x)) / (max(x) – min(x)) * 100 Oro: z i : l’ iesimo valore normalizzato...
In statistica, un’osservazione è semplicemente l’occorrenza di qualcosa che si misura. Ad esempio, supponiamo di misurare il peso di una determinata specie di tartaruga. Ogni tartaruga per la quale raccogli il peso conta come un’osservazione. Il seguente set di dati contiene...
L’analisi delle componenti principali, spesso abbreviata PCA, è una tecnica di apprendimento automatico non supervisionata che cerca di trovare le componenti principali – combinazioni lineari dei predittori originali – che spiegano gran parte della variazione in un set di dati. L’obiettivo...
Un’ANOVA unidirezionale viene utilizzata per determinare se esiste o meno una differenza statisticamente significativa tra le medie di tre o più gruppi indipendenti. Se il valore p complessivo della tabella ANOVA è inferiore a un certo livello di significatività, allora abbiamo...
Un’ANOVA unidirezionale viene utilizzata per determinare se esiste o meno una differenza statisticamente significativa tra le medie di tre o più gruppi indipendenti. Se il valore p complessivo della tabella ANOVA è inferiore a un certo livello di significatività, allora abbiamo...
A volte potresti voler aggiungere un array NumPy come nuova colonna a un DataFrame panda. Fortunatamente, puoi farlo facilmente utilizzando la seguente sintassi: df[' new_column '] = array_name. tolist () Questo tutorial mostra alcuni esempi di utilizzo pratico di questa sintassi....