V Cramera jest miarą siły związku między dwiema zmiennymi nominalnymi. Przechodzi od 0 do 1, gdzie: Wartość 0 oznacza brak związku między dwiema zmiennymi. 1 wskazuje na silny związek pomiędzy obiema zmiennymi. Oblicza się go w następujący sposób: V Cramera =...
Częściowy test F służy do określenia, czy istnieje statystycznie istotna różnica między modelem regresji a zagnieżdżoną wersją tego samego modelu. Model zagnieżdżony to po prostu model zawierający podzbiór zmiennych predykcyjnych w ogólnym modelu regresji. Załóżmy na przykład, że mamy następujący model...
Możesz użyć następującej składni, aby usunąć linie zawierające określony ciąg w ramce danych w R: df[!grepl(' string ', df$column),] W tym samouczku przedstawiono kilka przykładów praktycznego zastosowania tej składni z następującą ramką danych w języku R: #create data frame df <-...
Wiele testów statystycznych zakłada, że zbiory danych mają rozkład normalny . Jednak w praktyce założenie to jest często łamane. Jednym ze sposobów rozwiązania tego problemu jest przekształcenie wartości w zbiorze danych za pomocą jednej z trzech następujących transformacji: 1. Log Transform:...
Transformacja Boxa-Coxa jest powszechnie stosowaną metodą przekształcania zbioru danych o rozkładzie normalnym w zbiór o bardziej normalnym rozkładzie. Podstawową ideą jest znalezienie takiej wartości λ, aby przekształcone dane były jak najbardziej zbliżone do rozkładu normalnego, korzystając ze wzoru: y(λ) = (y...
Często możesz chcieć dopasować krzywą do zbioru danych w Pythonie. Poniższy przykład wyjaśnia krok po kroku, jak dopasować krzywe do danych w Pythonie za pomocą funkcji numpy.polyfit() i jak określić, która krzywa najlepiej pasuje do danych. Krok 1: Utwórz i wizualizuj...
Wykres log-log to wykres wykorzystujący skalę logarytmiczną zarówno na osi x, jak i osi y. Ten typ wykresu jest przydatny do wizualizacji dwóch zmiennych, gdy prawdziwa relacja między nimi jest zgodna z pewnym rodzajem prawa potęgowego. W tym samouczku wyjaśniono, jak...
Często możesz chcieć policzyć tylko liczbę wierszy w ramce danych pandy, która spełnia określone kryteria. Na szczęście można to łatwo zrobić, korzystając z następującej podstawowej składni: sum(df. column_name == some_value ) Poniższe przykłady pokazują, jak w praktyce zastosować tę składnię na...
Rozkład normalny jest najczęściej używanym rozkładem prawdopodobieństwa w statystyce. Ma następujące właściwości: Symetryczny kształt dzwonu Średnia i mediana są równe; oba zlokalizowane w centrum dystrybucji Średnia rozkładu normalnego określa jego położenie, a odchylenie standardowe określa jego rozproszenie. Na przykład poniższy wykres...
Wykres półlogarytmiczny to rodzaj wykresu, w którym zastosowano skalę logarytmiczną na osi y i skalę liniową na osi x. Ten typ wykresu jest często stosowany, gdy wartości zmiennej y charakteryzują się znacznie większą zmiennością niż wartości zmiennej x. Dzieje się tak...