Clustering ist eine Technik des maschinellen Lernens, die versucht, Gruppen von Beobachtungen innerhalb eines Datensatzes zu finden. Das Ziel besteht darin, Cluster zu finden, bei denen die Beobachtungen innerhalb jedes Clusters einander recht ähnlich sind, während sich die Beobachtungen in verschiedenen...
Varianz ist eine Methode zur Messung, wie gut Datenwerte um den Mittelwert verteilt sind. Die Formel zum Ermitteln der Varianz einer Grundgesamtheit lautet: σ 2 = Σ (x i – μ) 2 / N Dabei ist μ der Mittelwert der Grundgesamtheit,...
Clustering ist eine Technik des maschinellen Lernens, die versucht, Gruppen oder Cluster von Beobachtungen innerhalb eines Datensatzes zu finden. Das Ziel besteht darin, Cluster zu finden, bei denen die Beobachtungen innerhalb jedes Clusters einander recht ähnlich sind, während sich die Beobachtungen...
Ein Studenten-Residuum ist einfach ein Residuum dividiert durch seine geschätzte Standardabweichung. In der Praxis sagen wir im Allgemeinen, dass jede Beobachtung in einem Datensatz, deren Studentenresiduum größer als ein absoluter Wert von 3 ist, ein Ausreißer ist. Mit der Funktion studres()...
Ein Studentenresiduum ist einfach ein Residuum dividiert durch seine geschätzte Standardabweichung. In der Praxis sagen wir im Allgemeinen, dass jede Beobachtung in einem Datensatz, deren Studentenresiduum größer als ein absoluter Wert von 3 ist, ein Ausreißer ist. Mit der Funktion OLSResults.outlier_test()...
Eine Box-Cox-Transformation ist eine häufig verwendete Methode zur Transformation eines nicht normalverteilten Datensatzes in einennormalverteilteren Satz. Die Grundidee dieser Methode besteht darin, mithilfe der folgenden Formel einen Wert für λ zu finden, sodass die transformierten Daten möglichst nahe an der Normalverteilung...
Der Manhattan-Abstand zwischen zwei Vektoren A und B wird wie folgt berechnet: Σ|a i – b i | wobei i das i- te Element jedes Vektors ist. Dieser Abstand wird verwendet, um die Unähnlichkeit zwischen zwei beliebigen Vektoren zu messen, und...
Der Minkowski-Abstand zwischen zwei Vektoren A und B wird wie folgt berechnet: (Σ|a i – b i | p ) 1/p Dabei ist i das i- te Element jedes Vektors und p eine ganze Zahl. Dieser Abstand wird verwendet, um die...
Wenn Sie eine Regressionsanalyse oder ANOVA in R durchführen, enthalten die Ausgabetabellen p-Werte für die in der Analyse verwendeten Variablen zusammen mit den entsprechenden Signifikanzcodes . Diese Signifikanzcodes werden als Reihe von Sternen oder als Dezimalpunkt angezeigt, wenn die Variablen statistisch...
Um ein lineares Regressionsmodell in R anzupassen, können wir den Befehl lm() verwenden. Um die Ausgabe des Regressionsmodells anzuzeigen, können wir dann den Befehl summary() verwenden. In diesem Tutorial wird erläutert, wie die einzelnen Werte der Regressionsausgabe in R interpretiert werden....