W statystyce dane surowe oznaczają dane, które zostały zebrane bezpośrednio ze źródła pierwotnego i nie zostały w żaden sposób przetworzone. W każdym projekcie analizy danych pierwszym krokiem jest zebranie surowych danych. Po zebraniu tych danych można je następnie oczyścić, przekształcić, podsumować...
Korelację stosuje się do pomiaru liniowego powiązania między dwiema zmiennymi. Współczynnik korelacji zawsze przyjmuje wartość od -1 do 1, gdzie: -1 oznacza całkowicie ujemną korelację liniową pomiędzy dwiema zmiennymi Wartość 0 oznacza brak liniowej korelacji pomiędzy dwiema zmiennymi 1 wskazuje doskonale...
Wykres szeregów czasowych jest przydatny do wizualizacji wartości danych zmieniających się w czasie. W tym samouczku wyjaśniono, jak tworzyć różne wykresy szeregów czasowych przy użyciu pakietu wizualizacji danych seaborn w języku Python. Przykład 1: Wykreśl pojedynczy szereg czasowy Poniższy kod pokazuje,...
Aby utworzyć histogram z ramki DataFrame pandy, możesz użyć następującej podstawowej składni: df. hist (column=' col_name ') Poniższe przykłady pokazują, jak używać tej składni w praktyce. Przykład 1: Wykreśl pojedynczy histogram Poniższy kod pokazuje, jak utworzyć pojedynczy histogram dla określonej kolumny...
Możesz użyć funkcji fillna() , aby zastąpić wartości NaN w ramce DataFrame pandy. Ta funkcja wykorzystuje następującą podstawową składnię: #replace NaN values in one column df[' col1 '] = df[' col1 ']. fillna (0) #replace NaN values in multiple columns df[['...
Możesz użyć następującej podstawowej składni, aby dodać dwie ramki danych pand do jednej ramki danych: big_df = pd. concat ([df1, df2], ignore_index= True ) Poniższe przykłady pokazują, jak używać tej składni w praktyce. Przykład 1: Dodaj dwie ramki danych Pandas Poniższy...
Możesz użyć następującej podstawowej składni, aby podzielić ramkę danych pandy na wiele ramek danych na podstawie numeru wiersza: #split DataFrame into two DataFrames at row 6 df1 = df. iloc [:6] df2 = df. iloc [6:] Poniższe przykłady pokazują, jak używać...
Rozkład wykładniczy to rozkład prawdopodobieństwa używany do modelowania czasu, jaki musimy poczekać, aż nastąpi określone zdarzenie. Jeśli zmienna losowa X ma rozkład wykładniczy, wówczas można zapisać funkcję gęstości skumulowanej X : F (x; λ) = 1 – e -λx Złoto: λ:...
Aby wykonać WYSZUKAJ.PIONOWO (podobnie jak w programie Excel) w pandach, możesz użyć następującej podstawowej składni: p.d. merge (df1, df2, on = ' column_name ', how = ' left ') Poniższy przykład krok po kroku pokazuje, jak zastosować tę składnię w praktyce....
Macierz wykresu rozrzutu jest dokładnie tym, na co wygląda: macierzą wykresu rozrzutu. Ten typ macierzy jest przydatny, ponieważ pozwala na jednoczesną wizualizację relacji pomiędzy wieloma zmiennymi w zbiorze danych. Możesz użyć funkcji scatter_matrix() , aby utworzyć macierz rozproszenia z ramki DataFrame...