Wielokolinearność w analizie regresji ma miejsce, gdy dwie lub więcej zmiennych predykcyjnych jest ze sobą silnie skorelowanych, w związku z czym nie dostarczają unikalnych lub niezależnych informacji w modelu regresji. Jeśli stopień korelacji między zmiennymi jest wystarczająco wysoki, może to powodować...
Ten samouczek zawiera kompletny przewodnik po najlepszych motywach ggplot2, w tym: Jak zmienić wygląd działek za pomocą wbudowanych motywów ggplot2. Jak zmienić wygląd wykresów za pomocą predefiniowanych motywów z biblioteki ggthemes . Jak edytować określone elementy motywu, w tym tło panelu...
W tym przewodniku przedstawiono przykład sposobu przeprowadzenia wielokrotnej regresji liniowej w języku R, w tym: Sprawdź dane przed dopasowaniem modelu Regulacja modelu Sprawdzanie założeń modelu Interpretacja wyników modelu Ocena dobroci dopasowania modelu Użyj modelu do przewidywania Chodźmy! Obiekt W tym przykładzie...
Odległość Cooka , często oznaczana jako Di , jest używana w analizie regresji w celu zidentyfikowania wpływowych punktów danych, które mogą negatywnie wpłynąć na model regresji. Wzór na odległość Cooka to: re ja = (r ja 2 / p*MSE) * (h...
Dwuczynnikowa tabela częstości to tabela, która wyświetla częstości (lub „liczby”) dla dwóch zmiennych kategorycznych. Na przykład poniższa dwukierunkowa tabela przedstawia wyniki ankiety, w której zapytano 100 osób, jaki sport preferują: baseball, koszykówkę czy piłkę nożną. W wierszach wyświetlana jest płeć respondenta,...
Wiele testów statystycznych (takich jak jednokierunkowa ANOVA lub dwukierunkowa ANOVA ) zakłada, że wariancja między wieloma grupami jest równa. Jednym ze sposobów formalnego sprawdzenia tej hipotezy jest użycie testu Levene’a , który sprawdza, czy wariancja między dwiema lub większą liczbą grup...
Wykres QQ , skrót od „kwantyl-kwantyl”, to rodzaj wykresu, którego możemy użyć do określenia, czy zbiór danych potencjalnie pochodzi z rozkładu teoretycznego. W wielu testach statystycznych zakłada się, że zbiór danych ma rozkład normalny, a do oceny, czy założenie to jest...
Ten samouczek zawiera proste wyjaśnienie, jak interpretować statystykę C modelu regresji logistycznej. Co to jest regresja logistyczna? Regresja logistyczna to metoda statystyczna, której używamy do dopasowania modelu regresji, gdy zmienna odpowiedzi jest binarna. Oto kilka przykładów zastosowania regresji logistycznej: Chcemy wiedzieć,...
N-ty percentyl zbioru danych to wartość, która odcina pierwsze n procent wartości danych, gdy wszystkie wartości są posortowane od najmniejszej do największej. Na przykład 90. percentyl zbioru danych to wartość oddzielająca dolne 90% wartości danych od górnych 10% wartości danych. Jednym...
Test t dla par próbek to test statystyczny, który porównuje średnie z dwóch próbek, gdy każdą obserwację z jednej próbki można dopasować do obserwacji z drugiej próbki. Załóżmy na przykład, że chcemy wiedzieć, czy określony program nauczania ma znaczący wpływ na...