Pandas dataframe의 요약 통계를 계산하는 방법
다음 방법을 사용하여 Pandas DataFrame의 변수에 대한 요약 통계를 계산할 수 있습니다.
방법 1: 모든 숫자 변수에 대한 요약 통계 계산
df. describe ()
방법 2: 모든 문자열 변수에 대한 요약 통계 계산
df. describe (include=' object ')
방법 3: 변수별로 그룹화된 요약 통계 계산
df. groupby (' group_column '). mean () df. groupby (' group_column '). median () df. groupby (' group_column '). max () ...
다음 예에서는 다음 pandas DataFrame에서 실제로 각 메서드를 사용하는 방법을 보여줍니다.
import pandas as pd import numpy as np #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'], ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30], ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]}) #view DataFrame print (df) team points assists rebounds 0 to 18 5.0 11.0 1 to 22 NaN 8.0 2 A 19 7.0 10.0 3 A 14 9.0 6.0 4 B 14 12.0 6.0 5 B 11 9.0 5.0 6 B 20 9.0 9.0 7 B 28 4.0 NaN 8 B 30 5.0 6.0
예 1: 모든 숫자 변수에 대한 요약 통계 계산
다음 코드는 DataFrame의 각 숫자 변수에 대한 요약 통계를 계산하는 방법을 보여줍니다.
df. describe ()
points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000
세 가지 숫자 변수 각각에 대해 다음과 같은 요약 통계를 볼 수 있습니다.
- count: 0이 아닌 값의 개수
- 평균 : 평균값
- std : 표준편차
- min: 최소값
- 25% : 25번째 백분위수의 값
- 50% : 50번째 백분위수 값(중앙값이기도 함)
- 75% : 75번째 백분위수의 값
- max : 최대값
예 2: 모든 문자열 변수에 대한 요약 통계 계산
다음 코드는 DataFrame의 각 문자열 변수에 대한 요약 통계를 계산하는 방법을 보여줍니다.
df. describe (include=' object ') team count 9 single 2 top B freq 5
DataFrame의 문자열 변수에 대한 다음 요약 통계를 볼 수 있습니다.
- count : 0이 아닌 값의 개수
- Unique : 고유한 값의 개수
- 맨 위: 가장 빈번한 값
- freq : 가장 자주 나타나는 값의 개수
예시 3: 변수별로 그룹화된 요약 통계 계산
다음 코드는 팀 변수별로 그룹화된 모든 숫자 변수의 평균 값을 계산하는 방법을 보여줍니다.
df. groupby (' team '). mean () points assists rebounds team A 18.25 7.0 8.75 B 20.60 7.8 6.50
출력에는 팀 변수별로 그룹화된 포인트 , 어시스트 및 리바운드 변수의 평균 값이 표시됩니다.
유사한 구문을 사용하여 중앙값과 같은 다른 요약 통계를 계산할 수 있습니다.
df. groupby (' team '). median () points assists rebounds team A 18.5 7.0 9.0 B 20.0 9.0 6.0
출력에는 팀 변수별로 그룹화된 포인트 , 어시스트 및 리바운드 변수 의 중앙값이 표시됩니다.
참고 : 여기 에서 pandas의 설명 기능에 대한 전체 문서를 찾을 수 있습니다.
추가 리소스
다음 튜토리얼에서는 다른 일반적인 Panda 작업을 수행하는 방법을 설명합니다.
팬더에서 그룹 목격 횟수를 계산하는 방법
Pandas에서 그룹당 최대값을 찾는 방법
팬더에서 이상값을 식별하는 방법