„Wyeliminowanie trendu” danych szeregów czasowych oznacza usunięcie podstawowego trendu w danych. Głównym powodem, dla którego chcemy to zrobić, jest łatwiejsza wizualizacja podstawowych trendów w danych sezonowych lub cyklicznych. Rozważmy na przykład następujące dane szeregów czasowych, które reprezentują całkowitą sprzedaż firmy w...
Możemy użyć następującej składni, aby wykreślić linię regresji grupowej za pomocą pakietu wizualizacji R ggplot2 : ggplot(df, aes (x = x_variable, y = y_variable, color = group_variable)) + geom_point() + geom_smooth(method = " lm ", fill = NA ) W tym...
Jednym z głównych założeń regresji liniowej jest brak korelacji pomiędzy kolejnymi resztami . Inaczej mówiąc, zakładamy, że reszty są niezależne. W przypadku naruszenia tego założenia błędy standardowe współczynników w modelu regresji prawdopodobnie zostaną niedoszacowane, co oznacza, że zmienne predykcyjne z większym...
W statystyce wariancja skupień odnosi się po prostu do średniej z dwóch lub więcej wariancji skupień. Słowa „łączone” używamy, aby wskazać, że „łączymy” dwie lub więcej wariancji grupowych w celu uzyskania jednej liczby dla wspólnej wariancji między grupami. W praktyce wariancję...
Winsoryzacja danych oznacza ustawienie skrajnych wartości odstających równych określonemu percentylowi danych. Na przykład 90% winsoryzacja ustawia wszystkie obserwacje powyżej 95. percentyla na wartość na 95. percentylu, a wszystkie obserwacje poniżej 5. percentyla są równe wartości na 5. percentylu. Rzeczywiście, wygrywanie danych...
Winsoryzacja danych oznacza ustawienie skrajnych wartości odstających równych określonemu percentylowi danych. Na przykład 90% winsoryzacja ustawia wszystkie obserwacje powyżej 95. percentyla na wartość na 95. percentylu, a wszystkie obserwacje poniżej 5. percentyla są równe wartości na 5. percentylu. W tym samouczku...
Wykres skumulowany to rodzaj wykresu przedstawiającego częstotliwości za pomocą kropek. Istnieją dwie metody, których można użyć do utworzenia skumulowanego wykresu punktowego w R: Metoda 1: Funkcja stripchart() w bazie R. Metoda 2: Funkcja geom_dotplot() w ggplot2. W tym samouczku przedstawiono krótki...
Centrowanie zbioru danych oznacza odjęcie średniej wartości każdej pojedynczej obserwacji w zbiorze danych. Załóżmy na przykład, że mamy następujący zestaw danych: Okazuje się, że średnia wartość wynosi 14. Aby więc wyśrodkować ten zbiór danych, od każdej indywidualnej obserwacji odejmiemy 14: Należy...
Możemy użyć następującej składni, aby dodać określone wiersze ramki danych w R: with (df, sum (column_1[column_2 == ' some value '])) Ta składnia pozwala znaleźć sumę wierszy kolumny 1, w której kolumna 2 jest równa wartości, gdzie ramka danych nazywa się...
Funkcji ifelse() w bazie R można używać do pisania szybkich instrukcji if-else. Ta funkcja używa następującej składni: ifelse(test, tak, nie) Złoto: test: test logiczny tak: Wartość zwracana, jeśli test logiczny ma wartość True nie: Wartość zwracana, jeśli test logiczny ma wartość...