도트 플롯은 누적된 점을 사용하여 데이터 세트에 있는 값의 빈도를 표시하는 일종의 플롯입니다. 점도표를 만들 때 중심과 분포를 수량화하려는 경우가 많습니다. Center : 데이터세트의 중심점입니다. 우리는 이것을 측정하기 위해 종종 중앙값을 사용합니다. Spread : 데이터 세트의 값 분포입니다. 우리는 이것을 측정하기...
히스토그램은 데이터 집합의 값 분포를 시각화할 수 있는 차트 유형입니다. X축은 데이터 세트의 값을 나타내고 Y축은 각 값의 빈도를 나타냅니다. 데이터 세트의 값에 따라 히스토그램은 다양한 모양을 취할 수 있습니다. 다음 예에서는 다양한 히스토그램을 설명하는 방법을 보여줍니다. 1. 종 모양 히스토그램은...
이상값 은 데이터 세트의 다른 값과 비정상적으로 멀리 떨어져 있는 관측값입니다. 우리는 관측치가 세 번째 사분위수 위 사분위수 범위의 1.5배이거나 첫 번째 사분위수 아래 사분위수 범위의 1.5배인 경우 관측치를 이상값으로 정의하는 경우가 많습니다. 참고: 사분위수 범위는 데이터 세트의 세 번째 사분위수(75번째...
신뢰구간은 일정 수준의 신뢰도를 갖는 모집단 매개변수가 포함될 가능성이 있는 값의 범위입니다. 신뢰 구간을 보고할 때 항상 다음 형식을 사용합니다. 95% CI [LL, UL] 금 LL : 신뢰구간의 하한 UL : 신뢰구간의 상한 다음 예에서는 실제로 다양한 통계 테스트에 대한 신뢰...
R에서 접할 수 있는 경고 메시지는 다음과 같습니다. Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred 이 경고는 로지스틱 회귀 모델을 적합하고 데이터베이스에 있는 하나 이상의 관측치의 예측 확률을 0 또는 1과 구별할 수 없을 때 발생합니다. 이는 오류가...
종종 통계 및 기계 학습에서는 값의 범위가 0과 1 사이가 되도록 변수를 정규화합니다 . 변수를 정규화하는 가장 일반적인 이유는 일종의 다변량 분석을 수행하고(예: 여러 예측 변수와 반응 변수 간의 관계를 이해하고 싶고) 각 변수가 분석에 동일하게 기여하기를 원할 때입니다. 변수를 다양한...
ANOVA (“분산 분석”)는 세 개 이상의 독립 그룹의 평균이 동일한지 여부를 확인하는 데 사용됩니다. ANOVA는 다음과 같은 귀무 가설과 대립 가설을 사용합니다. H 0 : 모든 그룹 평균이 동일합니다. H A : 적어도 한 그룹의 평균은 다른 그룹의 평균과 다릅니다. ANOVA를...
합동 표준 편차는 단순히 두 개 이상의 독립 그룹의 표준 편차에 대한 가중 평균입니다. 통계에서는 두 모집단의 평균이 동일한지 여부를 검정하는 데 사용되는 2-표본 t-검정 에서 가장 일반적으로 나타납니다. 두 그룹의 군집 표준 편차를 계산하는 공식은 다음과 같습니다. 합동 표준 편차...
다음 기본 구문을 사용하여 여러 열을 기반으로 R의 두 데이터 프레임을 병합할 수 있습니다. merge(df1, df2, by. x =c(' col1 ', ' col2 '), by. y =c(' col1 ', ' col2 ')) 다음 예에서는 실제로 이 구문을 사용하는 방법을 보여줍니다. 예:...