Die Binomialverteilung ist eine Wahrscheinlichkeitsverteilung, die zur Modellierung der Wahrscheinlichkeit verwendet wird, dass eine bestimmte Anzahl von „Erfolgen“ über eine feste Anzahl von Versuchen auftritt. Die Verwendung der Binomialverteilung ist sinnvoll, wenn die folgenden drei Annahmen erfüllt sind: Annahme 1: Jeder...
Ein Punktdiagramm ist eine Art Diagramm, das die Häufigkeiten von Werten in einem Datensatz mithilfe gestapelter Punkte anzeigt. Wenn wir ein Punktdiagramm erstellen, möchten wir häufig den Mittelpunkt und die Verteilung quantifizieren: Mitte : Der zentrale Punkt des Datensatzes. Um dies...
Ein Histogramm ist eine Art Diagramm, mit dem wir die Verteilung von Werten in einem Datensatz visualisieren können. Die X-Achse zeigt die Werte des Datensatzes und die Y-Achse zeigt die Häufigkeit jedes Werts. Abhängig von den Werten im Datensatz kann ein...
Ein Ausreißer ist eine Beobachtung, die ungewöhnlich weit von anderen Werten in einem Datensatz entfernt ist. Wir definieren eine Beobachtung oft als Ausreißer, wenn sie das 1,5-fache des Interquartilbereichs oberhalb des dritten Quartils oder das 1,5-fache des Interquartilbereichs unterhalb des ersten...
Ein Konfidenzintervall ist ein Wertebereich, der wahrscheinlich einen Populationsparameter mit einem bestimmten Konfidenzniveau enthält. Wenn wir Konfidenzintervalle melden, verwenden wir immer das folgende Format: 95 % KI [LL, UL] Gold LL : Untere Grenze des Konfidenzintervalls UL : Obergrenze des Konfidenzintervalls...
Eine Warnmeldung, die in R auftreten kann, ist: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Diese Warnung tritt auf, wenn Sie ein logistisches Regressionsmodell anpassen und die vorhergesagten Wahrscheinlichkeiten einer oder mehrerer Beobachtungen in Ihrer Datenbank nicht von...
In der Statistik und beim maschinellen Lernen normalisieren wir Variablen häufig so, dass der Wertebereich zwischen 0 und 1 liegt. Der häufigste Grund für die Normalisierung von Variablen liegt darin, dass wir eine Art multivariate Analyse durchführen (dh wir möchten die...
Eine ANOVA („Varianzanalyse“) wird verwendet, um zu bestimmen, ob die Mittelwerte von drei oder mehr unabhängigen Gruppen gleich sind oder nicht. Eine ANOVA verwendet die folgenden Null- und Alternativhypothesen: H 0 : Alle Gruppenmittelwerte sind gleich. H A : Mindestens ein...
Der Manhattan-Abstand zwischen zwei Vektoren A und B wird wie folgt berechnet: Σ|A i – B i | wobei i das i- te Element jedes Vektors ist. Dieser Abstand wird zur Messung der Unähnlichkeit zwischen zwei Vektoren verwendet und wird häufig...
Eine gepoolte Standardabweichung ist einfach ein gewichteter Durchschnitt der Standardabweichungen von zwei oder mehr unabhängigen Gruppen. In der Statistik erscheint es am häufigsten im Zwei-Stichproben-t-Test , der verwendet wird, um zu testen, ob die Mittelwerte zweier Grundgesamtheiten gleich sind oder nicht....