So zentrieren sie daten in r (mit beispielen)
Beim Zentrieren eines Datensatzes wird der Mittelwert jeder einzelnen Beobachtung im Datensatz subtrahiert.
Angenommen, wir haben den folgenden Datensatz:
Es stellt sich heraus, dass der Durchschnittswert 14 beträgt. Um diesen Datensatz zu zentrieren, würden wir also 14 von jeder einzelnen Beobachtung abziehen:
Beachten Sie, dass der Mittelwert des zentrierten Datensatzes Null ist.
Dieses Tutorial bietet mehrere Beispiele für die Zentrierung von Daten in R.
Beispiel 1: Zentrieren Sie die Werte eines Vektors
Der folgende Code zeigt, wie Sie die Basis-R- Scale() -Funktion verwenden, um Werte in einem Vektor zu zentrieren:
#createvector data <- c(4, 6, 9, 13, 14, 17, 18, 19, 19, 21) #subtract the mean value from each observation in the vector scale(data, scale= FALSE ) [,1] [1,] -10 [2,] -8 [3,] -5 [4,] -1 [5,] 0 [6,] 3 [7,] 4 [8,] 5 [9,] 5 [10,] 7 attr(,"scaled:center") [1] 14
Die resultierenden Werte sind die zentrierten Werte des Datensatzes. Die Funktion „scale()“ sagt uns auch, dass der Durchschnittswert des Datensatzes 14 beträgt.
Beachten Sie, dass die Funktion „scale()“ standardmäßig den Mittelwert von jeder einzelnen Beobachtung subtrahiert und ihn dann durch die Standardabweichung dividiert.
Durch die Angabe von „scale=FALSE“ weisen wir R an, nicht durch die Standardabweichung zu dividieren.
Beispiel 2: Spalten in einem Datenrahmen zentrieren
Der folgende Code zeigt, wie die Funktionen sapply() und Scale() der R-Datenbank verwendet werden, um die Werte jeder Spalte eines Datenrahmens zu zentrieren:
#create data frame df <- data.frame(x = c(1, 4, 5, 6, 6, 8, 9), y = c(7, 7, 8, 8, 8, 9, 12), z = c(3, 3, 4, 4, 6, 7, 7)) #center each column in the data frame df_new <- sapply(df, function (x) scale(x, scale= FALSE )) #display data frame df_new X Y Z [1,] -4.5714286 -1.4285714 -1.8571429 [2,] -1.5714286 -1.4285714 -1.8571429 [3,] -0.5714286 -0.4285714 -0.8571429 [4,] 0.4285714 -0.4285714 -0.8571429 [5,] 0.4285714 -0.4285714 1.1428571 [6,] 2.4285714 0.5714286 2.1428571 [7,] 3.4285714 3.5714286 2.1428571
Mit der Funktion colMeans() können wir überprüfen, ob der Mittelwert jeder Spalte im neuen Datenrahmen Null ist:
colMeans(df_new) xyz 2.537653e-16 -2.537653e-16 3.806479e-16
Die Werte werden in wissenschaftlicher Notation angezeigt, aber jeder Wert ist im Wesentlichen Null.
Zusätzliche Ressourcen
So mitteln Sie den Durchschnitt über Spalten in R
So summieren Sie bestimmte Spalten in R
So entfernen Sie Ausreißer aus mehreren Spalten in R