Jak skalować tylko kolumny numeryczne w r (z przykładem)


Możesz użyć następującej składni z pakietu dplyr , aby skalować tylko kolumny numeryczne ramki danych w R:

 library (dplyr)

df %>% mutate(across(where(is. numeric ), scale))

Poniższy przykład pokazuje, jak w praktyce wykorzystać tę funkcję.

Przykład: Skaluj tylko kolumny liczbowe za pomocą dplyr

Załóżmy, że mamy następującą ramkę danych w R, która zawiera informacje o różnych koszykarzach:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E'),
                 dots=c(22, 34, 30, 12, 18),
                 assists=c(7, 9, 9, 12, 14),
                 rebounds=c(5, 10, 10, 8, 8))

#view data frame
df

  team points assists rebounds
1 to 22 7 5
2 B 34 9 10
3 C 30 9 10
4 D 12 12 8
5 E 18 14 8

Załóżmy, że chcemy użyć funkcji skali w języku R do skalowania tylko kolumn numerycznych ramki danych.

W tym celu możemy użyć następującej składni:

 library (dplyr)

#scale only the numeric columns in the data frame
df %>% mutate(across(where(is. numeric ), scale))

  team points assists rebounds
1 A -0.1348400 -1.153200 -1.56144012
2 B 1.2135598 -0.432450 0.87831007
3 C 0.7640932 -0.432450 0.87831007
4 D -1.2585064 0.648675 -0.09759001
5 E -0.5843065 1.369425 -0.09759001

Należy pamiętać, że wartości w trzech kolumnach liczbowych ( punkty , asysty i zbiórki ) zostały przeskalowane, podczas gdy kolumna drużyny pozostała niezmieniona.

Uwagi techniczne

Funkcjascale () w R używa następującej podstawowej składni:

 scale(x, center = TRUE , scale = TRUE )

Złoto:

  • x : Nazwa obiektu do skalowania
  • center : czy odjąć średnią podczas skalowania. Wartość domyślna to PRAWDA.
  • skala : Określa, czy podczas skalowania dzielić przez odchylenie standardowe. Wartość domyślna to PRAWDA.

Ta funkcja wykorzystuje następujący wzór do obliczenia przeskalowanych wartości:

skalowane x = ( oryginał x – x̄) / s

Złoto:

  • oryginał x : Oryginalna wartość x
  • : Przykładowe środki
  • s : odchylenie standardowe próbki

Nazywa się to również normalizacją danych i polega po prostu na przekształceniu każdej oryginalnej wartości w wynik Z.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania za pomocą dplyr:

Jak wybrać kolumny według nazwy za pomocą dplyr
Jak wybrać kolumny według indeksu za pomocą dplyr
Jak używać funkcjiselect_if z wieloma warunkami w dplyr

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *