때로는 Python의 pandas DataFrame에서 인덱스 열을 제거해야 할 수도 있습니다. pandas DataFrames 및 Series에는 항상 인덱스가 있으므로 실제로 인덱스를 삭제할 수는 없지만 다음 코드를 사용하여 인덱스를 재설정할 수 있습니다. df. reset_index (drop= True , place= True ) 예를 들어 문자 인덱스가...
부스팅은 예측 정확도가 높은 모델을 생성하는 것으로 입증된 기계 학습 기술입니다. 실제로 부스팅을 구현하는 가장 일반적인 방법 중 하나는 “극단적 경사 부스팅”의 약자인 XGBoost를 사용하는 것입니다. 이 튜토리얼에서는 R에서 향상된 모델을 맞추기 위해 XGBoost를 사용하는 방법에 대한 단계별 예를 제공합니다. 1단계:...
통계에서 우리는 종종 다음과 같은 질문에 답하고 싶어합니다. 특정 도시의 평균 가계 소득은 얼마입니까? 특정 거북이 종의 평균 체중은 얼마입니까? 대학 미식축구 경기의 평균 관중 수는 얼마입니까? 각 시나리오에서 우리는 측정하려는 가능한 모든 개별 요소를 나타내는 모집단 에 대한 질문에 답하고...
피어슨 상관 계수는 두 변수 사이의 선형 연관성을 측정합니다. 항상 -1과 1 사이의 값을 취합니다. 여기서: -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다. 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다. 1은 두 변수 사이의 완벽한 양의 선형...
통계에서 관찰은 단순히 측정한 것의 발생입니다. 예를 들어 특정 거북이 종의 무게를 측정한다고 가정해 보겠습니다. 체중을 수집하는 각 거북이는 하나의 관측치로 계산됩니다. 다음 데이터 세트에는 15개 거북이의 가중치가 포함되어 있으므로 총 15개의 관측치가 있습니다. Excel , R , Python 또는 Stata...
흔히 PCA로 축약되는 주성분 분석은 데이터 세트의 변동 중 큰 부분을 설명하는 주성분(원래 예측 변수의 선형 조합)을 찾는 비지도 기계 학습 기술입니다. PCA의 목표는 원래 데이터 세트보다 더 적은 수의 변수를 사용하여 데이터 세트의 변동성 대부분을 설명하는 것입니다. p 변수가 있는...
일원 분산 분석은 3개 이상의 독립 그룹 평균 간에 통계적으로 유의한 차이가 있는지 여부를 확인하는 데 사용됩니다. ANOVA 테이블의 전체 p-값이 특정 유의 수준보다 낮으면 그룹 평균 중 하나 이상이 다른 평균과 다르다고 말할 수 있는 충분한 증거가 있는 것입니다. 그러나...
일원 분산 분석은 3개 이상의 독립 그룹 평균 간에 통계적으로 유의한 차이가 있는지 여부를 확인하는 데 사용됩니다. ANOVA 테이블의 전체 p-값이 특정 유의 수준보다 낮으면 그룹 평균 중 하나 이상이 다른 평균과 다르다고 말할 수 있는 충분한 증거가 있는 것입니다. 그러나...
때로는 NumPy 배열을 pandas DataFrame에 새 열로 추가하고 싶을 수도 있습니다. 다행히도 다음 구문을 사용하면 쉽게 이 작업을 수행할 수 있습니다. df[' new_column '] = array_name. tolist () 이 튜토리얼에서는 이 구문의 실제 사용에 대한 몇 가지 예를 보여줍니다. 예시 1:...