So berechnen sie die stichproben- und populationsvarianz in r
Varianz ist eine Methode zur Messung, wie gut Datenwerte um den Mittelwert verteilt sind.
Die Formel zum Ermitteln der Varianz einer Grundgesamtheit lautet:
σ 2 = Σ (x i – μ) 2 / N
Dabei ist μ der Mittelwert der Grundgesamtheit, x i das i -te Element der Grundgesamtheit, N die Grundgesamtheitsgröße und Σ nur ein ausgefallenes Symbol, das „Summe“ bedeutet.
Die Formel zum Ermitteln der Varianz einer Stichprobe lautet:
s 2 = Σ (x i – x ) 2 / (n-1)
Dabei ist x der Stichprobenmittelwert, x i das i -te Stichprobenelement und n die Stichprobengröße.
Beispiel: Berechnen Sie die Stichproben- und Populationsvarianz in R
Angenommen, wir haben den folgenden Datensatz in R:
#define dataset
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)
Wir können die Stichprobenvarianz mithilfe der Funktion var() in R berechnen:
#calculate sample variance
var(data)
[1] 46.01111
Und wir können die Populationsvarianz berechnen, indem wir einfach die Stichprobenvarianz mit (n-1)/n wie folgt multiplizieren:
#determine length of data
n <- length (data)
#calculate population variance
var(data) * (n-1)/n
[1] 41.41
Beachten Sie, dass die Populationsvarianz immer geringer ist als die Stichprobenvarianz.
In der Praxis berechnen wir Stichprobenvarianzen normalerweise für Datensätze, da es ungewöhnlich ist, Daten für eine gesamte Grundgesamtheit zu sammeln.
Beispiel: Berechnen Sie die Varianz einer Stichprobe aus mehreren Spalten
Angenommen, wir haben den folgenden Datenrahmen in R:
#create data frame
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
b=c(2, 4, 4, 5, 5, 6, 7, 16),
c=c(6, 6, 7, 8, 8, 9, 9, 12))
#view data frame
data
ABC
1 1 2 6
2 3 4 6
3 4 4 7
4 4 5 8
5 6 5 8
6 7 6 9
7 8 7 9
8 12 16 12
Mit der Funktion sapply() können wir die Stichprobenvarianz jeder Spalte im Datenrahmen berechnen:
#find sample variance of each column
sapply(data, var)
ABC
11.696429 18.125000 3.839286
Und wir können den folgenden Code verwenden, um die Stichprobenstandardabweichung jeder Spalte zu berechnen, die einfach die Quadratwurzel der Stichprobenvarianz ist:
#find sample standard deviation of each column
sapply(data, sd)
ABC
3.420004 4.257347 1.959410
Weitere R-Tutorials finden Sie hier .