So zentrieren sie daten in r (mit beispielen)


Beim Zentrieren eines Datensatzes wird der Mittelwert jeder einzelnen Beobachtung im Datensatz subtrahiert.

Angenommen, wir haben den folgenden Datensatz:

Es stellt sich heraus, dass der Durchschnittswert 14 beträgt. Um diesen Datensatz zu zentrieren, würden wir also 14 von jeder einzelnen Beobachtung abziehen:

Anleitung zum Rechenzentrum

Beachten Sie, dass der Mittelwert des zentrierten Datensatzes Null ist.

Dieses Tutorial bietet mehrere Beispiele für die Zentrierung von Daten in R.

Beispiel 1: Zentrieren Sie die Werte eines Vektors

Der folgende Code zeigt, wie Sie die Basis-R- Scale() -Funktion verwenden, um Werte in einem Vektor zu zentrieren:

 #createvector
data <- c(4, 6, 9, 13, 14, 17, 18, 19, 19, 21)

#subtract the mean value from each observation in the vector
scale(data, scale= FALSE )

      [,1]
 [1,] -10
 [2,] -8
 [3,] -5
 [4,] -1
 [5,] 0
 [6,] 3
 [7,] 4
 [8,] 5
 [9,] 5
[10,] 7

attr(,"scaled:center")
[1] 14

Die resultierenden Werte sind die zentrierten Werte des Datensatzes. Die Funktion „scale()“ sagt uns auch, dass der Durchschnittswert des Datensatzes 14 beträgt.

Beachten Sie, dass die Funktion „scale()“ standardmäßig den Mittelwert von jeder einzelnen Beobachtung subtrahiert und ihn dann durch die Standardabweichung dividiert.

Durch die Angabe von „scale=FALSE“ weisen wir R an, nicht durch die Standardabweichung zu dividieren.

Beispiel 2: Spalten in einem Datenrahmen zentrieren

Der folgende Code zeigt, wie die Funktionen sapply() und Scale() der R-Datenbank verwendet werden, um die Werte jeder Spalte eines Datenrahmens zu zentrieren:

 #create data frame
df <- data.frame(x = c(1, 4, 5, 6, 6, 8, 9),
                 y = c(7, 7, 8, 8, 8, 9, 12),
                 z = c(3, 3, 4, 4, 6, 7, 7))

#center each column in the data frame
df_new <- sapply(df, function (x) scale(x, scale= FALSE ))

#display data frame
df_new

              X Y Z
[1,] -4.5714286 -1.4285714 -1.8571429
[2,] -1.5714286 -1.4285714 -1.8571429
[3,] -0.5714286 -0.4285714 -0.8571429
[4,] 0.4285714 -0.4285714 -0.8571429
[5,] 0.4285714 -0.4285714 1.1428571
[6,] 2.4285714 0.5714286 2.1428571
[7,] 3.4285714 3.5714286 2.1428571

Mit der Funktion colMeans() können wir überprüfen, ob der Mittelwert jeder Spalte im neuen Datenrahmen Null ist:

 colMeans(df_new)

            xyz 2.537653e-16 -2.537653e-16 3.806479e-16 

Die Werte werden in wissenschaftlicher Notation angezeigt, aber jeder Wert ist im Wesentlichen Null.

Zusätzliche Ressourcen

So mitteln Sie den Durchschnitt über Spalten in R
So summieren Sie bestimmte Spalten in R
So entfernen Sie Ausreißer aus mehreren Spalten in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert