Wykres słupkowy jest przydatny do wizualizacji ilości różnych zmiennych kategorycznych. Czasami chcemy stworzyć wykres słupkowy, który wizualizuje ilości zmiennych kategorycznych w podziale na podgrupy. Na przykład możemy chcieć wizualizować całkowitą sprzedaż popcornu i napojów gazowanych na trzech różnych stadionach sportowych. W...
W statystyce wynik z mówi nam, ile odchyleń standardowych dana wartość ma od średniej . Do obliczenia wskaźnika Z używamy następującego wzoru: z = (X – μ) / σ Złoto: X to pojedyncza surowa wartość danych µ to średnia σ jest...
W statystyce średni błąd bezwzględny (MAE) jest sposobem pomiaru dokładności danego modelu. Oblicza się go w następujący sposób: MAE = (1/n) * Σ|y i – x i | Złoto: Σ: grecki symbol oznaczający „sumę” y i : Obserwowana wartość i-tej obserwacji...
W statystyce odsetek populacji odnosi się do odsetka osób w populacji o określonej charakterystyce. Załóżmy na przykład, że 43,8% mieszkańców pewnego miasta popiera nowe prawo. Wartość 0,438 oznacza odsetek populacji. Wzór na proporcję populacji Proporcja populacji zawsze mieści się w przedziale...
W rozkładzie częstotliwości granice klas to wartości oddzielające klasy. Aby obliczyć granice klas w rozkładzie częstotliwości, wykonujemy następujące kroki: 1. Odejmij górną granicę pierwszej klasy od dolnej granicy drugiej klasy. 2. Podziel wynik przez dwa. 3. Wynik odejmij od dolnej granicy...
Histogram to wykres, który pomaga nam zwizualizować rozkład wartości w zestawie danych. Okazuje się, że liczba pól użytych w histogramie może mieć ogromny wpływ na sposób interpretacji danych. Jeśli użyjemy zbyt małej liczby grup, prawdziwy wzorzec leżący u podstaw danych może...
Skośność to sposób opisu symetrii rozkładu. Rozkład jest skośny , jeśli ma „ogon” po lewej stronie rozkładu: Rozkład jest prawoskośny , jeśli ma „ogon” po prawej stronie rozkładu: A rozkład nie ma obciążenia , jeśli jest symetryczny po obu stronach: Należy...
Funkcja pandas fillna() jest przydatna do uzupełniania brakujących wartości w kolumnach pandy DataFrame. W tym samouczku przedstawiono kilka przykładów użycia tej funkcji do uzupełnienia brakujących wartości dla wielu kolumn w następującej ramce DataFrame pand: import pandas as pd import numpy as...
Test trendu Manna-Kendalla służy do określenia, czy istnieje trend w danych szeregów czasowych. Jest to test nieparametryczny, co oznacza, że nie przyjmuje się żadnych założeń dotyczących normalności danych. Hipotezy testowe są następujące: H 0 (hipoteza zerowa): w danych nie ma trendu....
Mapa cieplna to rodzaj wykresu, który wykorzystuje różne odcienie kolorów do przedstawienia wartości danych. W tym samouczku wyjaśniono, jak tworzyć mapy cieplne przy użyciu biblioteki wizualizacji Seaborn Python z następującym zbiorem danych: #import seaborn import seaborn as sns #load "flights" dataset...