Hoe ontbrekende waarden in r te interpoleren (inclusief een voorbeeld)
U kunt de volgende basissyntaxis gebruiken om ontbrekende waarden in een dataframekolom in R te interpoleren:
library (dplyr) library (zoo) df <- df %>% mutate(column_name = na. approx (column_name))
Het volgende voorbeeld laat zien hoe u deze syntaxis in de praktijk kunt gebruiken.
Voorbeeld: Interpoleer ontbrekende waarden in R
Stel dat we het volgende gegevensframe in R hebben dat de totale omzet van een winkel gedurende 15 opeenvolgende dagen weergeeft:
#create data frame df <- data. frame (day=1:15, sales=c(3, 6, 8, 10, 14, 17, 20, NA, NA, NA, NA, 35, 39, 44, 49)) #view data frame df day sales 1 1 3 2 2 6 3 3 8 4 4 10 5 5 14 6 6 17 7 7 20 8 8 NA 9 9 NA 10 10 NA 11 11 NA 12 12 35 13 13 39 14 14 44 15 15 49
Houd er rekening mee dat er in het gegevensframe verkoopcijfers voor vier dagen ontbreken.
Als we een eenvoudig lijndiagram zouden maken om de verkopen in de loop van de tijd te visualiseren, zou het er zo uitzien:
#create line chart to visualize sales plot(df$sales, type=' o ', pch= 16 , col=' steelblue ', xlab=' Day ', ylab=' Sales ')
Om de ontbrekende waarden in te vullen, kunnen we de functie na.ca() uit het zoo- pakket gebruiken, evenals de functie mute() uit het dplyr- pakket:
library (dplyr) library (zoo) #interpolate missing values in 'sales' column df <- df %>% mutate(sales = na. approx (sales)) #view updated data frame df day sales 1 1 3 2 2 6 3 3 8 4 4 10 5 5 14 6 6 17 7 7 20 8 8 23 9 9 26 10 10 29 11 11 32 12 12 35 13 13 39 14 14 44 15 15 49
Merk op dat elk van de ontbrekende waarden is vervangen.
Als we nog een lijndiagram maken om het bijgewerkte dataframe te visualiseren, zou het er zo uitzien:
#create line chart to visualize sales plot(df$sales, type=' o ', pch= 16 , col=' steelblue ', xlab=' Day ', ylab=' Sales ')
Merk op dat de waarden gekozen door de functie na.ca() vrij goed lijken overeen te komen met de trend van de gegevens.
Aanvullende bronnen
De volgende tutorials bieden aanvullende informatie over het omgaan met ontbrekende waarden in R:
Hoe ontbrekende waarden in R te vinden en te tellen
Hoe je allemaal ontbrekende waarden in R kunt toeschrijven
Hoe de is.na-functie in R te gebruiken