Jak obliczyć wyniki z w r


W statystyce wynik z informuje nas, o ile odchyleń standardowych dana wartość znajduje się od średniej. Do obliczenia wskaźnika Z używamy następującego wzoru:

z = (X – μ) / σ

Złoto:

  • X to pojedyncza surowa wartość danych
  • μ to średnia populacji
  • σ jest odchyleniem standardowym populacji

W tym samouczku wyjaśniono, jak obliczyć wyniki Z dla nieprzetworzonych wartości danych w R.

Przykład 1: Znajdowanie wyników Z dla pojedynczego wektora

Poniższy kod pokazuje, jak znaleźć wartość Z dla każdej nieprzetworzonej wartości danych w wektorze:

 #create vector of data
data <- c(6, 7, 7, 12, 13, 13, 15, 16, 19, 22)

#find z-score for each data value 
z_scores <- (data-mean(data))/sd(data)

#display z-scores
z_scores

[1] -1.3228757 -1.1338934 -1.1338934 -0.1889822 0.0000000 0.0000000
[7] 0.3779645 0.5669467 1.1338934 1.7008401

Każdy wynik z mówi nam, ile odchyleń standardowych ma dana wartość od średniej. Na przykład:

  • Pierwsza wartość surowych danych wynosząca „6” wynosi 1,323 odchylenia standardowego poniżej średniej.
  • Piąta wartość danych surowych, „13”, wynosi 0 odchyleń standardowych od średniej, to znaczy jest równa średniej.
  • Najnowsza wartość danych surowych „22” wynosi 1,701 odchylenia standardowego powyżej średniej.

Przykład 2: Znajdź wyniki Z dla pojedynczej kolumny w ramce danych

Poniższy kod pokazuje, jak znaleźć wynik Z dla każdej nieprzetworzonej wartości danych w pojedynczej kolumnie ramki danych:

 #create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
                 points = c(24, 29, 13, 15, 19, 22),
                 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-score for each data value in the 'points' column
z_scores <- (df$points-mean(df$points))/sd(df$points)

#display z-scores
z_scores

[1] 0.6191904 1.4635409 -1.2383807 -0.9006405 -0.2251601 0.2814502

Każdy wynik z mówi nam, ile odchyleń standardowych ma dana wartość od średniej. Na przykład:

  • Pierwsza wartość surowych danych „24” wynosi 0,619 odchylenia standardowego powyżej średniej.
  • Druga wartość surowych danych, „29”, wynosi 1,464 odchylenia standardowego powyżej średniej.
  • Trzecia wartość surowych danych, „13”, jest 1,238 odchylenia standardowego poniżej średniej.

I tak dalej.

Przykład 3: Znajdź wyniki Z dla każdej kolumny w ramce danych

Poniższy kod pokazuje, jak znaleźć wynik Z dla każdej nieprzetworzonej wartości danych w każdej kolumnie ramki danych za pomocą funkcji sapply() .

 #create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
                 points = c(24, 29, 13, 15, 19, 22),
                 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-scores of each column
sapply(df, function(df) (df-mean(df))/sd(df))

         assists points rebounds
[1,] -0.92315712 0.6191904 -0.9035079
[2,] -0.92315712 1.4635409 -0.9035079
[3,] -0.34011052 -1.2383807 -0.4517540
[4,] -0.04858722 -0.9006405 -0.2258770
[5,] 0.53445939 -0.2251601 1.1293849
[6,] 1.70055260 0.2814502 1.3552619

Wyniki Z dla każdej indywidualnej wartości są wyświetlane w odniesieniu do kolumny, w której się znajdują. Na przykład:

  • Pierwsza wartość „4” w pierwszej kolumnie to 0,923 odchylenia standardowego poniżej średniej wartości w tej kolumnie.
  • Pierwsza wartość „24” w drugiej kolumnie to 0,619 odchylenia standardowego powyżej średniej wartości w tej kolumnie.
  • Pierwsza wartość „9” w trzeciej kolumnie jest o 0,904 odchylenia standardowego niższa od średniej wartości w tej kolumnie.

I tak dalej.

Więcej samouczków dotyczących języka R można znaleźć tutaj .

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *