68-95-99.7 규칙이라고도 하는 경험 법칙은 정규 분포를 갖는 특정 데이터 세트에 대해 다음과 같이 명시합니다. 데이터 값의 68% 가 평균의 1표준편차 내에 있습니다. 데이터 값의 95% 가 평균의 2표준편차 내에 있습니다. 데이터 값의 99.7%가 평균의 3표준편차 내에 속합니다. 이 튜토리얼에서는 R의...
우리는 연속적인 수치 변수 간의 상관 관계를 계산하기 위해 Pearson 상관 계수를 자주 사용합니다. 그러나 범주형 변수, 즉 다음과 같은 이름이나 레이블을 갖는 변수 간의 상관관계를 계산하려면 다른 측정항목을 사용해야 합니다. 결혼 상태(미혼, 기혼, 이혼) 흡연상태(흡연자, 비흡연자) 눈 색깔(파란색, 갈색, 녹색)...
원-핫 인코딩은 범주형 변수를 기계 학습 알고리즘 에서 쉽게 사용할 수 있는 형식으로 변환하는 데 사용됩니다. 원-핫 코딩의 기본 아이디어는 원래 범주형 값을 나타내기 위해 0과 1의 값을 취하는 새로운 변수를 만드는 것입니다. 예를 들어, 다음 이미지는 팀 이름이 포함된 범주형...
다음 기본 구문을 사용하여 Python의 Seaborn 데이터 시각화 라이브러리에 하위 플롯을 생성할 수 있습니다. #define dimensions of subplots (rows, columns) fig, axes = plt. subplots (2, 2) #create chart in each subplot sns. boxplot (data=df, x=' team ', y=' points ',...
다음 기본 구문을 사용하여 Pandas의 날짜에서 월을 추출할 수 있습니다. df[' month '] = pd. DatetimeIndex (df[' date_column ']). month 다음 예에서는 이 기능을 실제로 사용하는 방법을 보여줍니다. 예: Pandas에서 날짜로부터 월 추출 다음과 같은 팬더 DataFrame이 있다고 가정합니다. import pandas...
많은 통계 테스트에서는 데이터 세트가 정규 분포를 따른다고 가정합니다. 그러나 실제로는 그렇지 않은 경우가 많습니다. 이 문제를 해결하는 한 가지 방법은 다음 세 가지 변환 중 하나를 사용하여 데이터 세트의 값 분포를 변환하는 것입니다. 1. 로그 변환: 응답 변수를 y에서 log(y)...
원-핫 인코딩은 범주형 변수를 기계 학습 알고리즘 에서 사용할 수 있는 형식으로 변환하는 데 사용됩니다. 원-핫 코딩의 기본 아이디어는 원래 범주형 값을 나타내기 위해 0과 1의 값을 취하는 새로운 변수를 만드는 것입니다. 예를 들어, 다음 이미지는 팀 이름이 포함된 범주형 변수를...
순서형 변수 사이의 상관관계를 계산하기 위해 다항상관(Polychoric Correlation)이 사용됩니다. 순서형 변수는 가능한 값이 범주형이고 자연 순서를 갖는 변수라는 점을 기억하세요. 다음은 순서 척도로 측정된 변수의 몇 가지 예입니다. 만족 : 매우 불만족, 불만족, 보통, 만족, 매우 만족 소득수준 : 저소득, 중소득,...
로지스틱 회귀는 응답 변수가 이진일 때 하나 이상의 예측 변수와 응답 변수 간의 관계를 이해하는 데 사용할 수 있는 회귀 모델 유형입니다. 하나의 예측 변수와 하나의 응답 변수만 있는 경우 다음 공식을 사용하여 변수 간의 관계를 추정하는 단순 로지스틱 회귀를 사용할...
Fisher의 정확 검정은 두 범주형 변수 사이에 유의미한 연관성이 있는지 여부를 확인하는 데 사용됩니다. 일반적으로 2×2 테이블에서 하나 이상의 셀 개수가 5보다 작은 경우 카이제곱 독립성 검정 의 대안으로 사용됩니다. Fisher의 정확한 테스트 결과를 보고할 때 일반적으로 다음과 같은 일반 구조를...