통계에서 원시 데이터는 기본 소스에서 직접 수집되었으며 어떠한 방식으로도 처리되지 않은 데이터를 의미합니다. 모든 유형의 데이터 분석 프로젝트에서 첫 번째 단계는 원시 데이터를 수집하는 것입니다. 이 데이터가 수집되면 정리, 변환, 요약 및 시각화할 수 있습니다. 원시 데이터 수집의 장점은 궁극적으로 이를...
상관관계는 두 변수 사이의 선형 연관성을 측정하는 데 사용됩니다. 상관 계수는 항상 -1과 1 사이의 값을 갖습니다. 여기서: -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다. 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다. 1은 두 변수 사이의 완벽한...
시계열 도표는 시간에 따라 변하는 데이터 값을 시각화하는 데 유용합니다. 이 튜토리얼에서는 Python의 seaborn 데이터 시각화 패키지를 사용하여 다양한 시계열 플롯을 생성하는 방법을 설명합니다. 예 1: 단일 시계열 그리기 다음 코드는 Seaborn에서 단일 시계열을 그리는 방법을 보여줍니다. import pandas as pd...
다음 기본 구문을 사용하여 Pandas DataFrame에서 히스토그램을 만들 수 있습니다. df. hist (column=' col_name ') 다음 예에서는 이 구문을 실제로 사용하는 방법을 보여줍니다. 예 1: 단일 히스토그램 그리기 다음 코드는 Pandas DataFrame의 특정 열에 대한 단일 히스토그램을 만드는 방법을 보여줍니다. import...
fillna() 함수를 사용하여 Pandas DataFrame의 NaN 값을 바꿀 수 있습니다. 이 함수는 다음 기본 구문을 사용합니다. #replace NaN values in one column df[' col1 '] = df[' col1 ']. fillna (0) #replace NaN values in multiple columns df[[' col1 ', '...
다음 기본 구문을 사용하여 두 개의 Pandas DataFrame을 단일 DataFrame에 추가할 수 있습니다. big_df = pd. concat ([df1, df2], ignore_index= True ) 다음 예에서는 이 구문을 실제로 사용하는 방법을 보여줍니다. 예 1: 두 개의 Pandas DataFrame 추가 다음 코드는 두 개의...
다음 기본 구문을 사용하여 행 번호를 기준으로 pandas DataFrame을 여러 DataFrame으로 분할할 수 있습니다. #split DataFrame into two DataFrames at row 6 df1 = df. iloc [:6] df2 = df. iloc [6:] 다음 예에서는 이 구문을 실제로 사용하는 방법을 보여줍니다. 예...
다음 기본 구문을 사용하여 Pandas에서 VLOOKUP(Excel과 유사)을 수행할 수 있습니다. p.d. merge (df1, df2, on = ' column_name ', how = ' left ') 다음 단계별 예제에서는 이 구문을 실제로 사용하는 방법을 보여줍니다. 1단계: 두 개의 DataFrame 생성 먼저 pandas를 가져오고...
산점도 행렬은 말 그대로 산점도 행렬입니다. 이러한 유형의 행렬은 데이터 세트에 있는 여러 변수 간의 관계를 동시에 시각화할 수 있기 때문에 유용합니다. Scatter_matrix() 함수를 사용하여 Pandas DataFrame에서 분산형 행렬을 만들 수 있습니다. p.d. plotting . scatter_matrix (df) 다음 예는 다음 pandas...
pandas를 사용할 때 발생할 수 있는 오류는 다음과 같습니다. KeyError : 'column_name' 이 오류는 존재하지 않는 Pandas DataFrame의 열에 액세스하려고 할 때 발생합니다. 일반적으로 이 오류는 단순히 열 이름의 철자를 잘못 입력하거나 열 이름 앞이나 뒤에 실수로 공백을 포함할 때 발생합니다....