시계열 데이터의 “추세 제거”는 데이터의 기본 추세를 제거하는 것을 의미합니다. 우리가 이를 원하는 주된 이유는 계절적 또는 주기적 데이터의 기본 추세를 보다 쉽게 시각화하는 것입니다. 예를 들어, 연속 20개 기간 동안 회사의 총 매출을 나타내는 다음 시계열 데이터를 고려해 보세요. 분명히...
다음 구문을 사용하여 R 시각화 패키지 ggplot2를 사용하여 그룹 회귀선을 그릴 수 있습니다. ggplot(df, aes (x = x_variable, y = y_variable, color = group_variable)) + geom_point() + geom_smooth(method = " lm ", fill = NA ) 이 튜토리얼에서는 이 기능을 실제로...
선형 회귀의 주요 가정 중 하나는 연속 잔차 간에 상관관계가 없다는 것입니다. 즉, 잔차가 독립적이라고 가정합니다. 이 가정이 위반되면 회귀 모델 계수의 표준 오차가 과소평가될 가능성이 높습니다. 즉, 예측 변수가 그렇지 않은 경우에도 통계적으로 유의미한 것으로 간주될 가능성이 더 높습니다. 현실에는...
통계에서 군집 분산은 단순히 두 개 이상의 군집 분산의 평균을 나타냅니다. 그룹 간의 공통 분산에 대한 단일 숫자를 얻기 위해 두 개 이상의 그룹 분산을 “풀링”한다는 의미로 “풀링됨”이라는 단어를 사용합니다. 실제로 합동 분산은 두 모집단의 평균이 같은지 여부를 확인하는 데 사용되는...
데이터를 윈저화하는 것은 데이터의 지정된 백분위수와 동일하게 극단적인 이상값을 설정하는 것을 의미합니다. 예를 들어, 90% 윈저화는 95번째 백분위수 위의 모든 관측치를 95번째 백분위수 값과 동일하게 설정하고 5번째 백분위수 아래의 모든 관측치를 5번째 백분위수 값과 동일하게 설정합니다. 실제로 데이터를 윈소화한다는 것은 데이터...
데이터를 윈저화하는 것은 데이터의 지정된 백분위수와 동일하게 극단적인 이상값을 설정하는 것을 의미합니다. 예를 들어, 90% 윈저화는 95번째 백분위수 위의 모든 관측치를 95번째 백분위수 값과 동일하게 설정하고 5번째 백분위수 아래의 모든 관측치를 5번째 백분위수 값과 동일하게 설정합니다. 이 자습서에서는 Excel에서 데이터 세트를...
누적 도트 플롯은 점을 사용하여 주파수를 표시하는 일종의 플롯입니다. R에서 누적 포인트 플롯을 생성하는 데 사용할 수 있는 두 가지 방법이 있습니다. 방법 1: 기본 R의 Stripchart() 함수. 방법 2: ggplot2의 geom_dotplot() 함수. 이 튜토리얼에서는 이러한 각 방법을 사용하여 누적점 도표를...
데이터 세트를 중앙에 배치한다는 것은 데이터 세트의 각 개별 관측치의 평균값을 빼는 것을 의미합니다. 예를 들어 다음과 같은 데이터 세트가 있다고 가정해 보겠습니다. 평균값은 14인 것으로 나타났습니다. 따라서 이 데이터 세트를 중앙에 두려면 각 개별 관측값에서 14를 뺍니다. 중심 데이터세트의 평균값은...
다음 구문을 사용하여 R에서 데이터 프레임의 특정 행을 추가할 수 있습니다. with (df, sum (column_1[column_2 == ' some value '])) 이 구문은 열 2가 값과 같은 열 1의 행 합계를 찾습니다. 여기서 데이터 프레임은 df 라고 합니다. 이 튜토리얼에서는 다음 데이터...
기본 R의 ifelse() 함수를 사용하면 빠른 if-else 문을 작성할 수 있습니다. 이 함수는 다음 구문을 사용합니다. ifelse(테스트, 예, 아니오) 금: 테스트: 논리 테스트 yes: 논리 테스트가 True인 경우 반환할 값 no: 논리 테스트가 False인 경우 반환할 값 이 튜토리얼에서는 다음 데이터...