W statystyce rozbieżność Kullbacka-Leiblera (KL) jest metryką odległości, która określa ilościowo różnicę między dwoma rozkładami prawdopodobieństwa. Jeśli mamy dwa rozkłady prawdopodobieństwa, P i Q, generalnie rozbieżność KL zapisujemy za pomocą notacji KL(P || Q), co oznacza „rozbieżność P od Q”. Obliczamy...
Aby uzyskać nazwy kolumn ramki danych w R, możesz użyć następujących metod: Metoda 1: Uzyskaj wszystkie nazwy kolumn colnames(df) Metoda 2: Pobierz nazwy kolumn alfabetycznie sort(colnames(df)) Metoda 3: Uzyskaj nazwy kolumn z określonym typem danych colnames(df[,sapply(df, is.numeric )]) Poniższe przykłady pokazują,...
Często możesz chcieć wykreślić średnią i odchylenie standardowe według grup w ggplot2. Na szczęście można to łatwo zrobić, korzystając z funkcji geom_point() i geom_errorbar() w ggplot2. Poniższy przykład pokazuje, jak używać tych funkcji do utworzenia poniższego wykresu przedstawiającego średnią i odchylenie...
Do obliczenia odchylenia standardowego według grupy w R można użyć dowolnej z następujących metod: Metoda 1: użyj podstawy R aggregate(df$col_to_aggregate, list(df$col_to_group_by), FUN=sd) Metoda 2: użyj dplyr library (dplyr) df %>% group_by(col_to_group_by) %>% summarise_at(vars(col_to_aggregate), list(name=sd)) Metoda 3: Użyj data.table library (data.table) setDT(df)...
W analizie regresji wieloliniowość występuje, gdy dwie lub więcej zmiennych predykcyjnych jest ze sobą silnie skorelowanych, tak że nie dostarczają unikalnych lub niezależnych informacji w modelu regresji. Jeśli stopień korelacji między zmiennymi predykcyjnymi jest wystarczająco wysoki, może to powodować problemy podczas...
Możesz użyć dowolnej z poniższych metod, aby usunąć wiele kolumn z ramki danych w R przy użyciu pakietu dplyr : 1. Usuń wiele kolumn według nazwy df_new <- df %>% select(-c(col2, col4)) 2. Usuń wszystkie kolumny z zakresu df_new <- df...
Możesz użyć następującej podstawowej składni, aby dodać etykietę do linii poziomej w ggplot2: + annotate(" text ", x= 9 , y= 20 , label=" Here is my text ") Poniższe przykłady pokazują, jak używać tej składni w praktyce. Przykład 1: Dodaj...
Wykres QQ, skrót od „kwantyl-kwantyl”, służy do oceny, czy zbiór danych potencjalnie pochodzi z rozkładu teoretycznego. W większości przypadków ten typ wykresu służy do określenia, czy zbiór danych ma rozkład normalny. Jeśli dane mają rozkład normalny, punkty na wykresie QQ będą...
Wykresy reszt służą do oceny, czy reszty modelu regresji mają rozkład normalny i czy wykazują heteroskedastyczność . Aby utworzyć wykres rezydualny w ggplot2, możesz użyć następującej podstawowej składni: library (ggplot2) ggplot(model, aes(x = .fitted, y = .resid)) + geom_point() + geom_hline(yintercept...