Pandas에서 두 열 간의 상관 관계를 계산하는 방법
다음 구문을 사용하여 Pandas DataFrame에 있는 두 열 간의 상관 관계를 계산할 수 있습니다.
df[' column1 ']. corr (df[' column2 '])
다음 예에서는 이 구문을 실제로 사용하는 방법을 보여줍니다.
예 1: 두 열 간의 상관 관계 계산
다음 코드는 Pandas DataFrame의 열 간의 상관 관계를 계산하는 방법을 보여줍니다.
import pandas as pd #createDataFrame df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29], ' assists ': [5, 7, 7, 9, 12, 9, 9, 4], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]}) #view first five rows of DataFrame df. head () points assists rebounds 0 25 5 11 1 12 7 8 2 15 7 10 3 14 9 6 4 19 12 6 #calculate correlation between points and assists df[' points ']. corr (df[' assists ']) -0.359384
상관계수는 -0.359 입니다. 이 상관관계는 음수이므로 포인트와 어시스트가 음의 상관관계가 있음을 알 수 있습니다.
즉, 포인트 열의 값이 증가할수록 어시스트 열의 값이 감소하는 경향이 있습니다.
예 2: 상관관계 중요성 계산
상관 계수가 통계적으로 유의한지 여부를 확인하려면 SciPy 라이브러리의 pearsonr(x, y) 함수를 사용할 수 있습니다.
다음 코드는 실제로 이 함수를 사용하는 방법을 보여줍니다.
import pandas as pd from scipy. stats import pearsonr #createDataFrame df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29], ' assists ': [5, 7, 7, 9, 12, 9, 9, 4], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]}) #calculate p-value of correlation coefficient between points and assists pearsonr(df[' points '], df[' assists ']) (-0.359384, 0.38192)
출력의 첫 번째 값은 상관 계수(-0.359384)를 표시하고 두 번째 값은 해당 상관 계수와 연관된 p-값(0.38192)을 표시합니다.
p-값 이 α = 0.05 이상이므로 포인트와 어시스트 간의 상관관계가 통계적으로 유의하지 않다는 결론을 내릴 수 있습니다.
추가 리소스
Python에서 Spearman 순위 상관관계를 계산하는 방법
Python에서 부분 상관 관계를 계산하는 방법
Python에서 상호 상관을 계산하는 방법