통계에서는 두 그룹의 평균 사이에 통계적으로 유의미한 차이가 있는지 확인하기 위해 p-값을 자주 사용합니다. 그러나 p-값은 두 그룹 간에 통계적으로 유의미한 차이가 있는지 여부를 알려줄 수 있지만 효과 크기는 그 차이가 실제로 얼마나 큰지 알려줄 수 있습니다. 효과 크기의 가장 일반적인...
R의 데이터 프레임에서 중복 행을 제거하려면 두 가지 방법 중 하나를 사용할 수 있습니다. 방법 1: 기본 R 사용 #remove duplicate rows across entire data frame df[ ! duplicated(df), ] #remove duplicate rows across specific columns of data frame df[ !...
회귀 모델의 로그 우도 값은 모델의 적합도를 측정하는 방법입니다. 로그 우도 값이 높을수록 모델이 데이터 세트에 더 잘 맞는 것입니다. 주어진 모델에 대한 로그 우도 값의 범위는 음의 무한대에서 양의 무한대까지일 수 있습니다. 주어진 모델에 대한 실제 로그 우도 값은 일반적으로...
종종 BIC로 약칭되는 베이지안 정보 기준(Bayesian Information Criterion)은 다양한 회귀 모델의 적합도를 비교하는 데 사용되는 척도입니다. 실제로 우리는 여러 회귀 모델을 동일한 데이터 세트에 맞추고 BIC 값이 가장 낮은 모델을 데이터에 가장 잘 맞는 모델로 선택합니다. BIC를 계산하기 위해 다음 공식을...
종종 BIC로 약칭되는 베이지안 정보 기준(Bayesian Information Criterion)은 다양한 회귀 모델의 적합도를 비교하는 데 사용되는 척도입니다. 실제로 우리는 여러 회귀 모델을 동일한 데이터 세트에 맞추고 BIC 값이 가장 낮은 모델을 데이터에 가장 잘 맞는 모델로 선택합니다. BIC를 계산하기 위해 다음 공식을...
R에서 발생할 수 있는 오류 메시지는 다음과 같습니다. Coefficients: (1 not defined because of singularities) 이 오류 메시지는 R에서 glm() 함수를 사용하여 모델을 피팅하고 두 개 이상의 예측 변수가 서로 정확한 선형 관계( 완전 다중 공선성 이라고 함)를 가질 때 발생합니다....
일반 선형 모델(예: 로지스틱 회귀, 포아송 회귀 등)을 적용할 때마다 대부분의 통계 소프트웨어는 모델의 영 이탈도 및 잔차 이탈도 에 대한 값을 생성합니다. 이탈도 0은 원래 항만 사용하는 모델에서 반응 변수를 얼마나 잘 예측할 수 있는지를 나타냅니다. 잔차 이탈도는 p개의 예측...
통계에서는 다음 두 가지 조건이 충족되는 경우 확률 변수를 iid( 독립적이고 동일하게 분포됨 )라고 합니다. (1) 독립적 – 한 사건의 결과가 다른 사건의 결과에 영향을 미치지 않습니다. (2) 동일하게 분포됨 – 각 사건의 확률 분포가 동일합니다. 다음 시나리오에서는 실제로 iid 무작위...
로지스틱 회귀 는 응답 변수가 이진일 때 사용할 수 있는 회귀 유형입니다. 로지스틱 회귀 모델의 품질을 평가하는 일반적인 방법은 모델의 예측 값과 테스트 데이터 세트의 실제 값을 보여주는 2×2 테이블인 혼동 행렬을 만드는 것입니다. Python에서 로지스틱 회귀 모델에 대한 혼동 행렬을...
로지스틱 회귀 는 응답 변수가 이진일 때 사용할 수 있는 회귀 유형입니다. 로지스틱 회귀 모델의 품질을 평가하는 일반적인 방법은 모델의 예측 값과 테스트 데이터 세트의 실제 값을 보여주는 2×2 테이블인 혼동 행렬을 만드는 것입니다. 다음 단계별 예에서는 Excel에서 혼동 행렬을 만드는...