특정 문자열을 포함하는 R의 데이터 프레임에서 행을 필터링하려는 경우가 종종 있습니다. 다행히 dplyr 패키지의 filter() 함수와 Base R의 grepl() 함수를 사용하면 이 작업을 쉽게 수행할 수 있습니다. 이 튜토리얼에서는 다음 데이터 프레임을 사용하여 이러한 함수를 실제로 사용하는 몇 가지 예를 보여줍니다....
사람들이 R에서 자주 혼동하는 두 가지 기능은 grep() 및 grepl() 입니다. 두 함수 모두 문자열에 특정 패턴이 있는지 확인할 수 있지만 서로 다른 결과를 반환합니다. grepl()은 문자열에 패턴이 있으면 TRUE를 반환합니다. grep()은 패턴을 포함하는 문자열 인덱스의 벡터를 반환합니다. 다음 예에서는 이러한...
티블(tibble) 은 데이터 프레임의 처음 10줄만 표시하는 세련된 인쇄 방법을 갖춘 R의 데이터 프레임입니다. 이렇게 하면 대규모 데이터 작업이 훨씬 쉬워지고 R이 데이터 프레임의 모든 행을 표시하려고 시도하는 것을 방지할 수 있습니다. 예를 들어, 80개의 행과 2개의 열이 있는 다음 티블을...
R에서 데이터 프레임의 하나 이상의 열에 있는 값의 상대 빈도/비율을 계산하려는 경우가 종종 있습니다. 다행스럽게도 dplyr 패키지의 함수를 사용하면 이 작업을 쉽게 수행할 수 있습니다. 이 튜토리얼에서는 이러한 함수를 사용하여 다음 데이터 프레임에서 상대 빈도를 계산하는 방법을 보여줍니다. #create data frame...
종종 R의 데이터 프레임에 있는 각 그룹의 최대값을 찾고 싶을 수도 있습니다. 다행히 dplyr 패키지의 함수를 사용하면 이 작업을 쉽게 수행할 수 있습니다. 이 튜토리얼에서는 다음 데이터 프레임을 사용하여 이를 수행하는 방법을 설명합니다. #create data frame df <- data.frame(team = c('A',...
특정 조건에 따라 R의 데이터 프레임에 새 변수를 생성하려는 경우가 종종 있습니다. 다행히 dplyr 패키지의 mutate() 및 case_when() 함수를 사용하면 이 작업을 쉽게 수행할 수 있습니다. 이 튜토리얼에서는 다음 데이터 프레임과 함께 이러한 함수를 사용하는 몇 가지 예를 보여줍니다. #create data...
종종 “IQR”이라고 불리는 사분위간 범위는 데이터 세트의 중간 50%의 분포를 측정하는 방법입니다. 이는 데이터 세트의 첫 번째 사분위수*(25번째 백분위수)와 세 번째 사분위수(75번째 백분위수) 간의 차이로 계산됩니다. 다행히도 Python에서는 numpy.percentile() 함수를 사용하여 데이터세트의 사분위수 범위를 쉽게 계산할 수 있습니다. 이 튜토리얼에서는 이...
종종 R의 ggplot2 패키지를 사용하여 두 개의 플롯을 나란히 만들고 싶을 수도 있습니다. 다행히 패치워크 패키지의 도움으로 이 작업을 쉽게 수행할 수 있습니다. #install ggplot2 and patchwork packages install.packages(' ggplot2 ') install.packages(' patchwork ') #load the packages library(ggplot2) library(patchwork) 이 튜토리얼에서는...
ggplot2를 사용하여 플롯에 축 제한을 설정하려는 경우가 종종 있습니다. 다음 기능을 사용하면 쉽게 이 작업을 수행할 수 있습니다. xlim() : x축의 하한과 상한을 지정합니다. ylim(): y축의 하한과 상한을 지정합니다. 이 두 가지 방법 모두 경계 외부의 데이터를 제거하므로 때로는 의도하지 않은...
때로는 R의 상자 그림에서 이상값을 제거하고 싶을 수도 있습니다. 이 튜토리얼에서는 기본 R과 ggplot2를 모두 사용하여 이를 수행하는 방법을 설명합니다. 기본 R의 상자 그림에서 이상값 제거 다음과 같은 데이터 세트가 있다고 가정합니다. data <- c(5, 8, 8, 12, 14, 15, 16,...