Cramers V ist ein Maß für die Stärke der Assoziation zwischen zwei nominalen Variablen. Es geht von 0 auf 1, wobei: 0 bedeutet, dass zwischen den beiden Variablen kein Zusammenhang besteht. 1 weist auf einen starken Zusammenhang zwischen den beiden Variablen...
Mithilfe eines partiellen F-Tests wird ermittelt, ob ein statistisch signifikanter Unterschied zwischen einem Regressionsmodell und einer verschachtelten Version desselben Modells besteht. Ein verschachteltes Modell ist einfach ein Modell, das eine Teilmenge von Prädiktorvariablen im gesamten Regressionsmodell enthält. Angenommen, wir haben das...
Mit der folgenden Syntax können Sie Zeilen entfernen, die eine bestimmte Zeichenfolge in einem Datenrahmen in R enthalten: df[!grepl(' string ', df$column),] Dieses Tutorial bietet mehrere Beispiele für die praktische Verwendung dieser Syntax mit dem folgenden Datenrahmen in R: #create data...
Viele statistische Tests gehen davon aus, dass Datensätze normalverteilt sind. Allerdings wird diese Annahme in der Praxis häufig verletzt. Eine Möglichkeit, dieses Problem zu lösen, besteht darin, die Werte im Datensatz mithilfe einer der folgenden drei Transformationen zu transformieren: 1. Log-Transformation:...
Eine Box-Cox-Transformation ist eine häufig verwendete Methode zur Transformation eines nicht normalverteilten Datensatzes in einennormalverteilteren Satz. Die Grundidee besteht darin, mithilfe der folgenden Formel einen Wert für λ zu finden, sodass die transformierten Daten möglichst nahe an der Normalverteilung liegen: y(λ)...
Häufig möchten Sie möglicherweise eine Kurve an einen Datensatz in Python anpassen. Das folgende Schritt-für-Schritt-Beispiel erklärt, wie man in Python mit der Funktion numpy.polyfit() Kurven an Daten anpasst und wie man ermittelt, welche Kurve am besten zu den Daten passt. Schritt...
Ein Log-Log-Diagramm ist ein Diagramm, das logarithmische Skalen sowohl auf der x-Achse als auch auf der y-Achse verwendet. Diese Art von Diagramm eignet sich zur Visualisierung zweier Variablen, wenn die wahre Beziehung zwischen ihnen einer Art Potenzgesetz folgt. In diesem Tutorial...
Häufig möchten Sie möglicherweise nur die Anzahl der Zeilen in einem Pandas-DataFrame zählen, die bestimmte Kriterien erfüllen. Glücklicherweise ist dies mit der folgenden grundlegenden Syntax einfach zu bewerkstelligen: sum(df. column_name == some_value ) Die folgenden Beispiele zeigen, wie diese Syntax in...
Die Normalverteilung ist die in der Statistik am häufigsten verwendete Wahrscheinlichkeitsverteilung. Es hat die folgenden Eigenschaften: Symmetrisch Glockenförmig Der Mittelwert und der Median sind gleich; beide liegen im Zentrum der Verteilung Der Mittelwert der Normalverteilung bestimmt ihren Standort und die Standardabweichung...
Ein halblogarithmisches Diagramm ist ein Diagrammtyp, der eine logarithmische Skala auf der y-Achse und eine lineare Skala auf der x-Achse verwendet. Diese Art von Diagramm wird häufig verwendet, wenn die Werte der y-Variablen eine viel größere Variabilität aufweisen als die Werte...