Kiedy związek między zbiorem zmiennych predykcyjnych a zmienną odpowiedzi jest bardzo złożony, często używamy metod nieliniowych do modelowania związku między nimi. Jedną z takich metod są drzewa klasyfikacji i regresji (często w skrócie CART), które wykorzystują zestaw zmiennych predykcyjnych do tworzenia...
Kiedy związek między zbiorem zmiennych predykcyjnych a zmienną odpowiedzi jest bardzo złożony, często używamy metod nieliniowych do modelowania związku między nimi. Jedną z takich metod jest zbudowanie drzewa decyzyjnego . Jednakże wadą stosowania pojedynczego drzewa decyzyjnego jest to, że charakteryzuje się...
Rozkład próbkowania to rozkład prawdopodobieństwa określonej statystyki oparty na wielu losowych próbach z jednej populacji . W tym samouczku wyjaśniono, jak wykonać następujące czynności z rozkładami próbkowania w programie Excel: Wygeneruj rozkład próbkowania. Wizualizuj rozkład próbkowania. Oblicz średnią i odchylenie standardowe...
Często możesz chcieć wybrać losową próbkę ze zbioru danych w Excelu. Na szczęście można to łatwo zrobić za pomocą funkcji LOS() , która generuje liczbę losową z zakresu od 0 do 1. W tym samouczku przedstawiono krok po kroku przykład użycia...
Skalowany wykres lokalizacji to rodzaj wykresu, który wyświetla dopasowane wartości modelu regresji wzdłuż osi x i pierwiastek kwadratowy reszt standaryzowanych wzdłuż osi y. Patrząc na ten wykres, sprawdzamy dwie rzeczy: 1. Sprawdź, czy czerwona linia na wykresie jest w przybliżeniu pozioma....
Przedział ufności to zakres wartości, który prawdopodobnie będzie zawierał parametr populacji z pewnym poziomem ufności. Oblicza się go według następującego ogólnego wzoru: Przedział ufności = (oszacowanie punktowe) +/- (wartość krytyczna)* (błąd standardowy) Ta formuła tworzy przedział z dolną i górną granicą,...
R to jeden z najpopularniejszych języków programowania do pracy z danymi. Ale zanim będziemy mogli pracować z danymi, musimy je zaimportować do R! Jeśli Twoje dane znajdują się już w pliku CSV lub Excel, możesz wykonać kroki opisane w tych samouczkach,...
Rozkład normalny jest najczęściej używanym rozkładem we wszystkich statystykach i wiadomo, że jest symetryczny i ma kształt dzwonu. Ściśle powiązanym rozkładem jest rozkład t , który również jest symetryczny i ma kształt dzwonu, ale ma cięższe „ogony” niż rozkład normalny. Inaczej...
Większość nadzorowanych algorytmów uczenia maszynowego opiera się na użyciu jednego modelu predykcyjnego, takiego jak regresja liniowa , regresja logistyczna , regresja grzbietowa itp. Jednakże metody takie jak pakowanie i lasy losowe pozwalają zbudować wiele różnych modeli w oparciu o powtarzające się...
Często w statystyce chcemy zbierać dane, abyśmy mogli odpowiedzieć na określone pytania badawcze. Na przykład, możemy chcieć odpowiedzieć na następujące pytania: 1. Jaki jest średni dochód gospodarstwa domowego w Miami na Florydzie? 2. Jaka jest średnia waga określonej populacji żółwi? 3....