Pandas: 특정 백분위수와 함께 explain()을 사용하는 방법


explain() 함수를 사용하여 Pandas DataFrame의 변수에 대한 설명 통계를 생성할 수 있습니다.

기본적으로 pandas는 변수의 25번째, 50번째, 75번째 백분위수를 계산합니다.

그러나 explain() 함수의 백분위 수 인수를 사용하여 계산할 정확한 백분위수를 지정할 수 있습니다.

다음 예에서는 실제로 다음 Pandas DataFrame에서 이 인수를 사용하는 방법을 보여줍니다.

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

예 1: 기본 백분위수와 함께 explain() 사용

다음 코드는 explain() 함수를 사용하여 DataFrame의 각 숫자 변수에 대한 기술 통계를 계산하는 방법을 보여줍니다.

 #calculate descriptive statistics for each numeric variable
df. describe ()

points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
25% 14,000000 6,50000 6,000000
50% 18.500000 8.00000 8.500000
75% 20.500000 9.00000 10.250000
max 28.000000 12.00000 12.000000

explain() 함수는 기본적으로 각 변수에 대해 25번째, 50번째, 75번째 백분위수를 계산합니다.

예 2: 사용자 정의 백분위수와 함께 explain() 사용

다음 코드는 백분위 수 인수와 함께 explain() 함수를 사용하여 DataFrame의 각 숫자 변수에 대해 30번째, 60번째, 90번째 백분위수를 계산하는 방법을 보여줍니다.

 #calculate custom percentiles for each numeric variable
df. describe (percentiles=[ .3 , .6 , .9 ])

           points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
30% 14.400000 7.00000 6.200000
50% 18.500000 8.00000 8.500000
60% 19.200000 9.00000 9.200000
90% 23.800000 9.90000 11.300000
max 28.000000 12.00000 12.000000

explain() 함수는 각 숫자 변수에 대해 30번째, 60번째 및 90번째 백분위수를 반환합니다.

참고 : explain() 함수는 50번째 백분위수도 반환합니다. 이는 각 변수의 중앙값을 나타내고 explain() 함수에 의해 계산된 기본 측정항목 중 하나이기 때문입니다.

예 3: 백분위수 없이 explain() 사용

다음 코드는 백분위수=[] 인수와 함께 explain() 함수를 사용하여 DataFrame의 각 숫자 변수에 대한 백분위수를 계산하지 않는 방법을 보여줍니다.

 #calculate no percentiles for each numeric variable
df. describe (percentiles=[])

           points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
50% 18.500000 8.00000 8.500000
max 28.000000 12.00000 12.000000

25번째 및 75번째 백분위수는 더 이상 각 변수에 대해 계산되지 않습니다.

50번째 백분위수는 각 변수의 중앙값을 나타내기 때문에 항상 결과에 포함됩니다.

추가 리소스

다음 튜토리얼에서는 Pandas에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

Pandas: 그룹별로 explain()을 사용하는 방법
Pandas: explain()을 사용하고 과학적 표기법을 제거하는 방법
Pandas: 평균, 중앙값 및 최빈값을 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다