Pandas에서 두 열 간의 상관 관계를 계산하는 방법

에 의해 벤자민 앤더슨 7월 25, 2023 가이드 댓글 0개

다음 구문을 사용하여 Pandas DataFrame에 있는 두 열 간의 상관 관계를 계산할 수 있습니다.

 df[' column1 ']. corr (df[' column2 '])

다음 예에서는 이 구문을 실제로 사용하는 방법을 보여줍니다.

예 1: 두 열 간의 상관 관계 계산

다음 코드는 Pandas DataFrame의 열 간의 상관 관계를 계산하는 방법을 보여줍니다.

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view first five rows of DataFrame
df. head ()

        points assists rebounds
0 25 5 11
1 12 7 8
2 15 7 10
3 14 9 6
4 19 12 6

#calculate correlation between points and assists
df[' points ']. corr (df[' assists '])

-0.359384

상관계수는 -0.359 입니다. 이 상관관계는 음수이므로 포인트와 어시스트가 음의 상관관계가 있음을 알 수 있습니다.

즉, 포인트 열의 값이 증가할수록 어시스트 열의 값이 감소하는 경향이 있습니다.

예 2: 상관관계 중요성 계산

상관 계수가 통계적으로 유의한지 여부를 확인하려면 SciPy 라이브러리의 pearsonr(x, y) 함수를 사용할 수 있습니다.

다음 코드는 실제로 이 함수를 사용하는 방법을 보여줍니다.

 import pandas as pd
from scipy. stats import pearsonr

#createDataFrame
df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#calculate p-value of correlation coefficient between points and assists
pearsonr(df[' points '], df[' assists '])

(-0.359384, 0.38192)

출력의 첫 번째 값은 상관 계수(-0.359384)를 표시하고 두 번째 값은 해당 상관 계수와 연관된 p-값(0.38192)을 표시합니다.

p-값 이 α = 0.05 이상이므로 포인트와 어시스트 간의 상관관계가 통계적으로 유의하지 않다는 결론을 내릴 수 있습니다.

추가 리소스

Python에서 Spearman 순위 상관관계를 계산하는 방법
Python에서 부분 상관 관계를 계산하는 방법
Python에서 상호 상관을 계산하는 방법

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

예 1: 두 열 간의 상관 관계 계산

예 2: 상관관계 중요성 계산

추가 리소스

저자 소개

벤자민 앤더슨

의견을 추가하다