Jak skalować tylko kolumny numeryczne w r (z przykładem)
Możesz użyć następującej składni z pakietu dplyr , aby skalować tylko kolumny numeryczne ramki danych w R:
library (dplyr) df %>% mutate(across(where(is. numeric ), scale))
Poniższy przykład pokazuje, jak w praktyce wykorzystać tę funkcję.
Przykład: Skaluj tylko kolumny liczbowe za pomocą dplyr
Załóżmy, że mamy następującą ramkę danych w R, która zawiera informacje o różnych koszykarzach:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E'), dots=c(22, 34, 30, 12, 18), assists=c(7, 9, 9, 12, 14), rebounds=c(5, 10, 10, 8, 8)) #view data frame df team points assists rebounds 1 to 22 7 5 2 B 34 9 10 3 C 30 9 10 4 D 12 12 8 5 E 18 14 8
Załóżmy, że chcemy użyć funkcji skali w języku R do skalowania tylko kolumn numerycznych ramki danych.
W tym celu możemy użyć następującej składni:
library (dplyr)
#scale only the numeric columns in the data frame
df %>% mutate(across(where(is. numeric ), scale))
team points assists rebounds
1 A -0.1348400 -1.153200 -1.56144012
2 B 1.2135598 -0.432450 0.87831007
3 C 0.7640932 -0.432450 0.87831007
4 D -1.2585064 0.648675 -0.09759001
5 E -0.5843065 1.369425 -0.09759001
Należy pamiętać, że wartości w trzech kolumnach liczbowych ( punkty , asysty i zbiórki ) zostały przeskalowane, podczas gdy kolumna drużyny pozostała niezmieniona.
Uwagi techniczne
Funkcjascale () w R używa następującej podstawowej składni:
scale(x, center = TRUE , scale = TRUE )
Złoto:
- x : Nazwa obiektu do skalowania
- center : czy odjąć średnią podczas skalowania. Wartość domyślna to PRAWDA.
- skala : Określa, czy podczas skalowania dzielić przez odchylenie standardowe. Wartość domyślna to PRAWDA.
Ta funkcja wykorzystuje następujący wzór do obliczenia przeskalowanych wartości:
skalowane x = ( oryginał x – x̄) / s
Złoto:
- oryginał x : Oryginalna wartość x
- x̄ : Przykładowe środki
- s : odchylenie standardowe próbki
Nazywa się to również normalizacją danych i polega po prostu na przekształceniu każdej oryginalnej wartości w wynik Z.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania za pomocą dplyr:
Jak wybrać kolumny według nazwy za pomocą dplyr
Jak wybrać kolumny według indeksu za pomocą dplyr
Jak używać funkcjiselect_if z wieloma warunkami w dplyr