Як інтерполювати відсутні значення в r (включаючи приклад)
Ви можете використовувати наступний базовий синтаксис для інтерполяції відсутніх значень у стовпці кадру даних у R:
library (dplyr) library (zoo) df <- df %>% mutate(column_name = na. approx (column_name))
У наступному прикладі показано, як використовувати цей синтаксис на практиці.
Приклад: Інтерполяція відсутніх значень у R
Припустімо, що ми маємо наступний кадр даних у R, який показує загальні продажі, здійснені магазином протягом 15 днів поспіль:
#create data frame df <- data. frame (day=1:15, sales=c(3, 6, 8, 10, 14, 17, 20, NA, NA, NA, NA, 35, 39, 44, 49)) #view data frame df day sales 1 1 3 2 2 6 3 3 8 4 4 10 5 5 14 6 6 17 7 7 20 8 8 NA 9 9 NA 10 10 NA 11 11 NA 12 12 35 13 13 39 14 14 44 15 15 49
Зауважте, що у кадрі даних відсутні цифри продажів за чотири дні.
Якби ми створили просту лінійну діаграму для візуалізації продажів у часі, це виглядало б ось як:
#create line chart to visualize sales plot(df$sales, type=' o ', pch= 16 , col=' steelblue ', xlab=' Day ', ylab=' Sales ')
Щоб заповнити пропущені значення, ми можемо використати функцію na.approx() із пакета zoo , а також функцію mutate() із пакету dplyr :
library (dplyr) library (zoo) #interpolate missing values in 'sales' column df <- df %>% mutate(sales = na. approx (sales)) #view updated data frame df day sales 1 1 3 2 2 6 3 3 8 4 4 10 5 5 14 6 6 17 7 7 20 8 8 23 9 9 26 10 10 29 11 11 32 12 12 35 13 13 39 14 14 44 15 15 49
Зверніть увагу, що кожне з відсутніх значень було замінено.
Якщо ми створимо ще одну лінійну діаграму для візуалізації оновленого кадру даних, це виглядатиме так:
#create line chart to visualize sales plot(df$sales, type=' o ', pch= 16 , col=' steelblue ', xlab=' Day ', ylab=' Sales ')
Зауважте, що значення, вибрані функцією na.approx() , здається, досить добре відповідають тенденції даних.
Додаткові ресурси
У наступних посібниках надається додаткова інформація про те, як обробляти відсутні значення в R:
Як знайти і порахувати відсутні значення в R
Як приписати всі відсутні значення в R
Як використовувати функцію is.na в R