Manchmal möchten Sie möglicherweise die Indexspalte aus einem Pandas-DataFrame in Python entfernen. Da Pandas DataFrames und Series immer einen Index haben, können Sie den Index nicht wirklich löschen , aber Sie können ihn mit dem folgenden Code zurücksetzen: df. reset_index (drop=...
Boosting ist eine Technik des maschinellen Lernens, die nachweislich Modelle mit hoher Vorhersagegenauigkeit erzeugt. Eine der gebräuchlichsten Möglichkeiten, Boosting in der Praxis umzusetzen, ist die Verwendung von XGBoost , kurz für „Extreme Gradient Boosting“. Dieses Tutorial bietet ein schrittweises Beispiel für...
In der Statistik wollen wir oft Fragen beantworten wie: Wie hoch ist das durchschnittliche Haushaltseinkommen in einer bestimmten Stadt? Was ist das durchschnittliche Gewicht einer bestimmten Schildkrötenart? Wie hoch ist die durchschnittliche Besucherzahl bei College-Football-Spielen? In jedem Szenario möchten wir eine...
Ein Pearson-Korrelationskoeffizient misst den linearen Zusammenhang zwischen zwei Variablen. Es nimmt immer einen Wert zwischen -1 und 1 an, wobei: -1 zeigt eine vollkommen negative lineare Korrelation zwischen zwei Variablen an 0 bedeutet, dass zwischen zwei Variablen keine lineare Korrelation besteht...
Um Werte in einem Datensatz zwischen 0 und 100 zu normalisieren, können Sie die folgende Formel verwenden: z i = (x i – min(x)) / (max(x) – min(x)) * 100 Gold: z i : der i-te normalisierte Wert im Datensatz x...
In der Statistik ist eine Beobachtung einfach ein Ereignis von etwas, das Sie messen. Angenommen, Sie messen das Gewicht einer bestimmten Schildkrötenart. Jede Schildkröte, deren Gewicht Sie erfassen, zählt als eine Beobachtung. Der folgende Datensatz enthält die Gewichte von 15 verschiedenen...
Die Hauptkomponentenanalyse, oft als PCA abgekürzt, ist eine unbeaufsichtigte maschinelle Lerntechnik, die versucht, die Hauptkomponenten – lineare Kombinationen der ursprünglichen Prädiktoren – zu finden, die einen großen Teil der Variation in einem Datensatz erklären. Das Ziel der PCA besteht darin, den...
Eine einfaktorielle ANOVA wird verwendet, um zu bestimmen, ob ein statistisch signifikanter Unterschied zwischen den Mittelwerten von drei oder mehr unabhängigen Gruppen besteht. Wenn der Gesamt -p-Wert der ANOVA-Tabelle unter einem bestimmten Signifikanzniveau liegt, verfügen wir über ausreichende Beweise dafür, dass...
Eine einfaktorielle ANOVA wird verwendet, um zu bestimmen, ob ein statistisch signifikanter Unterschied zwischen den Mittelwerten von drei oder mehr unabhängigen Gruppen besteht. Wenn der Gesamt -p-Wert der ANOVA-Tabelle unter einem bestimmten Signifikanzniveau liegt, verfügen wir über ausreichende Beweise dafür, dass...
Manchmal möchten Sie möglicherweise ein NumPy-Array als neue Spalte zu einem Pandas-DataFrame hinzufügen. Glücklicherweise können Sie dies ganz einfach mit der folgenden Syntax tun: df[' new_column '] = array_name. tolist () Dieses Tutorial zeigt einige Beispiele für die praktische Verwendung dieser...