Pandas에서 두 열 간의 상관 관계를 계산하는 방법


다음 구문을 사용하여 Pandas DataFrame에 있는 두 열 간의 상관 관계를 계산할 수 있습니다.

 df[' column1 ']. corr (df[' column2 '])

다음 예에서는 이 구문을 실제로 사용하는 방법을 보여줍니다.

예 1: 두 열 간의 상관 관계 계산

다음 코드는 Pandas DataFrame의 열 간의 상관 관계를 계산하는 방법을 보여줍니다.

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view first five rows of DataFrame
df. head ()

        points assists rebounds
0 25 5 11
1 12 7 8
2 15 7 10
3 14 9 6
4 19 12 6

#calculate correlation between points and assists
df[' points ']. corr (df[' assists '])

-0.359384

상관계수는 -0.359 입니다. 이 상관관계는 음수이므로 포인트와 어시스트가 음의 상관관계가 있음을 알 수 있습니다.

즉, 포인트 열의 값이 증가할수록 어시스트 열의 값이 감소하는 경향이 있습니다.

예 2: 상관관계 중요성 계산

상관 계수가 통계적으로 유의한지 여부를 확인하려면 SciPy 라이브러리의 pearsonr(x, y) 함수를 사용할 수 있습니다.

다음 코드는 실제로 이 함수를 사용하는 방법을 보여줍니다.

 import pandas as pd
from scipy. stats import pearsonr

#createDataFrame
df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#calculate p-value of correlation coefficient between points and assists
pearsonr(df[' points '], df[' assists '])

(-0.359384, 0.38192)

출력의 첫 번째 값은 상관 계수(-0.359384)를 표시하고 두 번째 값은 해당 상관 계수와 연관된 p-값(0.38192)을 표시합니다.

p-값 이 α = 0.05 이상이므로 포인트와 어시스트 간의 상관관계가 통계적으로 유의하지 않다는 결론을 내릴 수 있습니다.

추가 리소스

Python에서 Spearman 순위 상관관계를 계산하는 방법
Python에서 부분 상관 관계를 계산하는 방법
Python에서 상호 상관을 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다