Współczynnik korelacji Matthewsa (MCC) to metryka, której możemy użyć do oceny wydajności modelu klasyfikacyjnego . Oblicza się go w następujący sposób: MCC = (TP*TN – FP*FN) / √ (TP+FP)(TP+FN)(TN+FP)(TN+FN) Złoto: TP : Liczba prawdziwie pozytywnych wyników TN : Liczba prawdziwych negatywów...
Możesz użyć następującej podstawowej składni w dplyr , aby mutować zmienną, jeśli kolumna zawiera określony ciąg: library (dplyr) df %>% mutate_at(vars(contains(' starter ')), ~ (scale(.) %>% as. vector )) Ta konkretna składnia stosuje funkcjęscale () do każdej zmiennej w ramce danych...
Histogram to wykres, który można wykorzystać do szybkiej wizualizacji rozkładu wartości w zbiorze danych. W tym samouczku przedstawiono krok po kroku przykład tworzenia histogramu w Arkuszach Google i zmiany liczby pól , aby histogram wyglądał dokładnie tak, jak chcesz. Krok 1:...
Średnia obcięta to średnia ze zbioru danych, która została obliczona po usunięciu określonego procentu najmniejszych i największych wartości w zbiorze danych. Na przykład 10% średnia obcięta będzie reprezentować średnią zbioru danych po usunięciu 10% wartości z końców zbioru danych. Aby obliczyć...
Średnia obcięta to średnia ze zbioru danych, która została obliczona po usunięciu określonego procentu najmniejszych i największych wartości w zbiorze danych. Na przykład 10% średnia obcięta będzie reprezentować średnią zbioru danych po usunięciu górnych 10% wartości z końców zbioru danych. Aby...
W języku programowania R ramka danych jest częścią bazy danych R. Dowolną ramkę data.frame można przekonwertować na data.table za pomocą funkcji setDF pakietu data.table . Tabela danych ma następujące zalety w porównaniu z ramką danych w R: 1. Możesz użyć funkcji...
W modelu regresji liniowej współczynnik regresji informuje nas o średniej zmianiezmiennej odpowiedzi powiązanej ze wzrostem o jedną jednostkę zmiennej predykcyjnej. Do obliczenia przedziału ufności dla współczynnika regresji możemy użyć następującego wzoru: Przedział ufności dla β 1 : b 1 ± t...
Często możesz chcieć wydrukować ciąg znaków i zmienną w tym samym wierszu w R. Na szczęście można to łatwo zrobić za pomocą funkcji print() i paste0() . Poniższy przykład pokazuje, jak to zrobić. Przykład: Wydrukuj ciąg znaków i zmienną w tej...
Jednym z najczęściej używanych algorytmów grupowania w uczeniu maszynowym jest grupowanie k-średnich . Grupowanie K-średnich to technika, w której każdą obserwację ze zbioru danych umieszczamy w jednym z K klastrów. Ostatecznym celem jest utworzenie K klastrów, w których obserwacje w każdym...
Regresja logistyczna to metoda, której możemy użyć do dopasowania modelu regresji, gdy zmienna odpowiedzi jest binarna. Poniższy przykład pokazuje krok po kroku, jak przeprowadzić regresję logistyczną w Arkuszach Google. Krok 1: Zainstaluj pakiet narzędzi analitycznych XLMiner Aby przeprowadzić regresję logistyczną w...