Rozkład dwumianowy to rozkład prawdopodobieństwa używany do modelowania prawdopodobieństwa wystąpienia określonej liczby „sukcesów” w ustalonej liczbie prób. Rozkład dwumianowy można zastosować, jeśli spełnione są trzy następujące założenia: Założenie 1: Każda próba ma tylko dwa możliwe wyniki. Zakładamy, że każda próba ma...
Wykres kropkowy to rodzaj wykresu, który wyświetla częstotliwości wartości w zestawie danych za pomocą skumulowanych punktów. Często, gdy tworzymy wykres punktowy, chcemy określić ilościowo środek i rozkład: Środek : Centralny punkt zbioru danych. Do pomiaru tego często używamy mediany. Rozprzestrzenianie :...
Histogram to rodzaj wykresu, który pozwala nam zwizualizować rozkład wartości w zbiorze danych. Oś X pokazuje wartości zbioru danych, a oś Y pokazuje częstotliwość każdej wartości. W zależności od wartości w zbiorze danych histogram może przybierać wiele różnych kształtów. Poniższe przykłady...
Wartość odstająca to obserwacja, która jest nienormalnie odległa od innych wartości w zbiorze danych. Często definiujemy obserwację jako wartość odstającą, jeśli jest 1,5-krotnością rozstępu międzykwartylowego powyżej trzeciego kwartyla lub 1,5-krotności rozstępu międzykwartylowego poniżej pierwszego kwartyla. Uwaga: Rozstęp międzykwartylowy to różnica między...
Przedział ufności to zakres wartości, który prawdopodobnie będzie zawierał parametr populacji z pewnym poziomem ufności. Kiedy podajemy przedziały ufności, zawsze używamy następującego formatu: 95% CI [LL, UL] Złoto LL : Dolna granica przedziału ufności UL : Górna granica przedziału ufności Poniższe...
Komunikat ostrzegawczy, który możesz napotkać w R, to: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred To ostrzeżenie pojawia się, gdy dopasowujesz model regresji logistycznej i przewidywanego prawdopodobieństwa jednej lub większej liczby obserwacji w bazie danych nie można odróżnić...
Często w statystyce i uczeniu maszynowym normalizujemy zmienne w taki sposób, że zakres wartości mieści się w przedziale od 0 do 1. Najczęstszym powodem normalizacji zmiennych jest sytuacja, gdy przeprowadzamy pewnego rodzaju analizę wielowymiarową (tj. chcemy zrozumieć związek pomiędzy kilkoma zmiennymi...
Do określenia, czy średnie trzech lub większej liczby niezależnych grup są równe, stosuje się analizę ANOVA („analiza wariancji”). W analizie ANOVA wykorzystuje się następujące hipotezy zerowe i alternatywne: H 0 : Wszystkie średnie grupowe są równe. H A : Przynajmniej jedna...
Odległość Manhattanu pomiędzy dwoma wektorami A i B oblicza się w następujący sposób: Σ|A i – B i | gdzie i jest i- tym elementem każdego wektora. Odległość ta służy do pomiaru odmienności między dwoma wektorami i jest powszechnie stosowana w...
Łączne odchylenie standardowe to po prostu średnia ważona odchyleń standardowych dwóch lub więcej niezależnych grup. W statystyce najczęściej pojawia się w teście t dla dwóch prób , który służy do sprawdzenia, czy średnie z dwóch populacji są równe. Wzór na obliczenie...