Der Matthews-Korrelationskoeffizient (MCC) ist eine Metrik, mit der wir die Leistung eines Klassifizierungsmodells bewerten können. Es wird wie folgt berechnet: MCC = (TP*TN – FP*FN) / √ (TP+FP)(TP+FN)(TN+FP)(TN+FN) Gold: TP : Anzahl der echten Positiven TN : Anzahl der echten Negative...
Sie können die folgende grundlegende Syntax in dplyr verwenden, um eine Variable zu ändern, wenn eine Spalte eine bestimmte Zeichenfolge enthält: library (dplyr) df %>% mutate_at(vars(contains(' starter ')), ~ (scale(.) %>% as. vector )) Diese spezielle Syntax wendet die Funktion „scale()“...
Ein Histogramm ist ein Diagramm, mit dem sich die Verteilung von Werten in einem Datensatz schnell visualisieren lässt. Dieses Tutorial bietet ein schrittweises Beispiel dafür, wie Sie in Google Sheets ein Histogramm erstellen und die Anzahl der Felder ändern, damit das...
Ein getrimmter Mittelwert ist der Durchschnitt eines Datensatzes, der nach Entfernung eines bestimmten Prozentsatzes der kleinsten und größten Werte im Datensatz berechnet wurde. Beispielsweise würde ein um 10 % gekürzter Mittelwert den Durchschnitt eines Datensatzes darstellen, nachdem die 10 % der...
Ein getrimmter Mittelwert ist der Durchschnitt eines Datensatzes, der nach Entfernen eines bestimmten Prozentsatzes der kleinsten und größten Werte im Datensatz berechnet wurde. Beispielsweise würde ein um 10 % gekürzter Mittelwert den Durchschnitt eines Datensatzes darstellen, nachdem die obersten 10 %...
In der Programmiersprache R ist ein data.frame Teil der R-Datenbank. Jeder data.frame kann mit der setDF- Funktion des data.table- Pakets in data.table konvertiert werden. Eine data.table bietet gegenüber einem data.frame in R folgende Vorteile: 1. Sie können die fread- Funktion aus...
In einem linearen Regressionsmodell gibt uns ein Regressionskoeffizient die durchschnittliche Änderung der Antwortvariablen an, die mit einem Anstieg der Prädiktorvariablen um eine Einheit verbunden ist. Mit der folgenden Formel können wir ein Konfidenzintervall für einen Regressionskoeffizienten berechnen: Konfidenzintervall für β 1...
Häufig möchten Sie möglicherweise eine Zeichenfolge und eine Variable in derselben Zeile in R ausgeben. Glücklicherweise ist dies mit den Funktionen print() und paste0() einfach zu bewerkstelligen. Das folgende Beispiel zeigt, wie das geht. Beispiel: Drucken Sie einen String und eine...
Einer der am häufigsten verwendeten Clustering-Algorithmen beim maschinellen Lernen ist das sogenannte K-Means-Clustering . K-Means-Clustering ist eine Technik, bei der wir jede Beobachtung aus einem Datensatz in einem von K Clustern platzieren. Das Endziel besteht darin, K- Cluster zu haben, in...
Die logistische Regression ist eine Methode, mit der wir ein Regressionsmodell anpassen können, wenn die Antwortvariable binär ist. Das folgende Schritt-für-Schritt-Beispiel zeigt, wie Sie eine logistische Regression in Google Sheets durchführen. Schritt 1: Installieren Sie das XLMiner Analysis ToolPak Um eine...