Бардіаграма корисна для візуалізації кількості різних категоріальних змінних. Іноді ми хочемо створити бардіаграму, яка візуалізує кількість категоріальних змінних, розділених на підгрупи. Наприклад, ми можемо захотіти візуалізувати загальний обсяг продажів попкорну та газованої води на трьох різних спортивних стадіонах. У цьому підручнику...
У статистиці z-показник повідомляє нам, скільки стандартних відхилень має дане значення від середнього . Ми використовуємо наступну формулу для розрахунку z-показника: z = (X – μ) / σ золото: X – це одне значення необроблених даних μ – середнє значення σ...
У статистиці середня абсолютна похибка (MAE) — це спосіб вимірювання точності даної моделі. Він розраховується таким чином: MAE = (1/n) * Σ|y i – x i | золото: Σ: грецький символ, що означає «сума» y i : спостережене значення для i-го...
У статистиці частка популяції відноситься до частки особин у популяції з певною характеристикою. Наприклад, припустимо, що 43,8% жителів певного міста підтримують новий закон. Значення 0,438 представляє частку населення. Формула частки населення Частка населення завжди становить від 0 до 1 (або від...
У частотному розподілі межі класів – це значення, які розділяють класи. Ми використовуємо такі кроки, щоб обчислити межі класів у частотному розподілі: 1. Відніміть верхню межу першого класу від нижньої межі другого класу. 2. Розділіть результат на два. 3. Відніміть результат...
Гістограма – це графік, який допомагає нам візуалізувати розподіл значень у наборі даних. Виявляється, кількість квадратів, які використовуються в гістограмі, може мати величезний вплив на те, як ми інтерпретуємо дані. Якщо ми використовуємо занадто мало груп, справжній основний шаблон у даних...
Асиметрія – це спосіб опису симетрії розподілу. Розподіл є спотвореним , якщо він має «хвіст» ліворуч від розподілу: Розподіл є правостороннім, якщо він має «хвіст» у правій частині розподілу: Розподіл не має зміщення , якщо він симетричний з обох сторін: Зауважте,...
Функція pandas fillna() корисна для заповнення відсутніх значень у стовпцях pandas DataFrame. Цей підручник містить кілька прикладів використання цієї функції для заповнення відсутніх значень для кількох стовпців у таких pandas DataFrame: import pandas as pd import numpy as np #createDataFrame df...
Критерій тенденції Манна-Кендалла використовується, щоб визначити, чи є тенденція в даних часових рядів. Це непараметричний тест, тобто не робиться жодних базових припущень щодо нормальності даних. Тестові гіпотези такі: H 0 (нульова гіпотеза): у даних немає тенденції. H A (альтернативна гіпотеза): у...
Теплова карта – це тип діаграми, який використовує різні відтінки кольорів для представлення значень даних. У цьому посібнику пояснюється, як створити теплові карти за допомогою бібліотеки візуалізації Seaborn Python із таким набором даних: #import seaborn import seaborn as sns #load "flights"...