У статистиці необроблені дані стосуються даних, які були зібрані безпосередньо з первинного джерела та жодним чином не оброблені. У будь-якому типі проекту аналітики даних першим кроком є збір необроблених даних. Коли ці дані зібрані, їх можна очистити, трансформувати, узагальнити та візуалізувати....
Кореляція використовується для вимірювання лінійного зв’язку між двома змінними. Коефіцієнт кореляції завжди приймає значення від -1 до 1, де: -1 вказує на абсолютно негативну лінійну кореляцію між двома змінними 0 означає відсутність лінійної кореляції між двома змінними 1 вказує на абсолютно...
Діаграма часових рядів корисна для візуалізації значень даних, які змінюються з часом. У цьому посібнику пояснюється, як створювати різні графіки часових рядів за допомогою пакета візуалізації даних seaborn у Python. Приклад 1: побудуйте один часовий ряд Наступний код показує, як побудувати...
Ви можете використовувати наступний базовий синтаксис, щоб створити гістограму з pandas DataFrame: df. hist (column=' col_name ') Наступні приклади показують, як використовувати цей синтаксис на практиці. Приклад 1. Побудуйте одну гістограму Наступний код показує, як створити одну гістограму для певного стовпця...
Ви можете використовувати функцію fillna() , щоб замінити значення NaN у pandas DataFrame. Ця функція використовує такий базовий синтаксис: #replace NaN values in one column df[' col1 '] = df[' col1 ']. fillna (0) #replace NaN values in multiple columns df[['...
Ви можете використовувати наступний базовий синтаксис, щоб додати два DataFrame panda в один DataFrame: big_df = pd. concat ([df1, df2], ignore_index= True ) Наступні приклади показують, як використовувати цей синтаксис на практиці. Приклад 1: додайте два Pandas DataFrames Наступний код показує,...
Ви можете використовувати наступний базовий синтаксис, щоб розділити pandas DataFrame на кілька DataFrame на основі номера рядка: #split DataFrame into two DataFrames at row 6 df1 = df. iloc [:6] df2 = df. iloc [6:] Наступні приклади показують, як використовувати цей...
Експоненціальний розподіл — це розподіл ймовірностей, який використовується для моделювання часу, який ми маємо чекати, поки не станеться певна подія. Якщо випадкова величина X має експоненціальний розподіл, то кумулятивну функцію щільності X можна записати: F (x; λ) = 1 – e...
Ви можете використовувати наступний базовий синтаксис для виконання VLOOKUP (схожого на Excel) у pandas: p.d. merge (df1, df2, on = ' column_name ', how = ' left ') Наступний покроковий приклад показує, як використовувати цей синтаксис на практиці. Крок 1: Створіть...
Матриця діаграми розсіювання – це саме те, що вона звучить: матриця діаграми розсіювання. Цей тип матриці корисний, оскільки він дозволяє одночасно візуалізувати зв’язок між декількома змінними в наборі даних. Ви можете використовувати функцію scatter_matrix() , щоб створити матрицю розсіювання з pandas...