Czasami możesz chcieć usunąć kolumnę indeksu z ramki DataFrame pandy w Pythonie. Ponieważ ramki danych i serie pand zawsze mają indeks, w rzeczywistości nie można go usunąć , ale można go zresetować, używając następującego fragmentu kodu: df. reset_index (drop= True ,...
Boosting to technika uczenia maszynowego, która, jak wykazano, pozwala na tworzenie modeli o dużej dokładności predykcyjnej. Jednym z najczęstszych sposobów wdrażania wzmocnienia w praktyce jest użycie XGBoost , skrótu od „ekstremalnego wzmocnienia gradientu”. Ten samouczek zawiera przykład krok po kroku użycia...
Często w statystykach chcemy odpowiedzieć na pytania typu: Jaki jest średni dochód gospodarstwa domowego w danym mieście? Jaka jest średnia waga określonego gatunku żółwia? Jaka jest średnia frekwencja na meczach futbolu uniwersyteckiego? W każdym scenariuszu chcemy odpowiedzieć na pytanie dotyczącepopulacji ,...
Współczynnik korelacji Pearsona mierzy liniowe powiązanie między dwiema zmiennymi. Zawsze przyjmuje wartość z zakresu od -1 do 1, gdzie: -1 oznacza całkowicie ujemną korelację liniową pomiędzy dwiema zmiennymi Wartość 0 oznacza brak liniowej korelacji pomiędzy dwiema zmiennymi 1 wskazuje doskonale dodatnią...
Aby znormalizować wartości w zbiorze danych od 0 do 100, możesz użyć następującej formuły: z i = (x i – min(x)) / (max(x) – min(x)) * 100 Złoto: z i : i-ta znormalizowana wartość w zbiorze danych x i : i-ta...
W statystyce obserwacja to po prostu wystąpienie czegoś, co można zmierzyć. Załóżmy na przykład, że mierzysz wagę określonego gatunku żółwia. Każdy żółw, dla którego zbierzesz wagę, liczy się jako jedna obserwacja. Poniższy zbiór danych zawiera masy 15 różnych żółwi, co daje...
Analiza głównych składowych, często w skrócie PCA, to technika uczenia maszynowego bez nadzoru , która ma na celu znalezienie głównych składowych – liniowych kombinacji oryginalnych predyktorów – które wyjaśniają dużą część zmienności w zbiorze danych. Celem PCA jest wyjaśnienie większości zmienności...
Jednoczynnikową ANOVA stosuje się do określenia, czy istnieje statystycznie istotna różnica między średnimi z trzech lub więcej niezależnych grup. Jeśli ogólna wartość p tabeli ANOVA jest poniżej pewnego poziomu istotności, wówczas mamy wystarczające dowody, aby stwierdzić, że co najmniej jedna ze...
Jednoczynnikową ANOVA stosuje się do określenia, czy istnieje statystycznie istotna różnica między średnimi z trzech lub więcej niezależnych grup. Jeśli ogólna wartość p tabeli ANOVA jest poniżej pewnego poziomu istotności, wówczas mamy wystarczające dowody, aby stwierdzić, że co najmniej jedna ze...
Czasami możesz chcieć dodać tablicę NumPy jako nową kolumnę do ramki DataFrame pandy. Na szczęście można to łatwo zrobić, korzystając z następującej składni: df[' new_column '] = array_name. tolist () W tym samouczku przedstawiono kilka przykładów praktycznego zastosowania tej składni. Przykład...