팬더에서 사분위수를 계산하는 방법(예제 포함)


통계에서 사분위수는 데이터 세트를 4개의 동일한 부분으로 나누는 값입니다.

분포를 분석할 때 일반적으로 다음 사분위수에 관심이 있습니다.

  • 1분위수( Q1 ): 25번째 백분위수에 위치한 값
  • 2분위수( Q2 ): 50번째 백분위수에 위치한 값
  • 3분위수( Q3 ): 75번째 백분위수에 위치한 값

다음 방법을 사용하여 Pandas DataFrame에서 열의 사분위수를 계산할 수 있습니다.

방법 1: 열의 사분위수 계산

 df[' some_column ']. quantile ([ 0.25 , 0.5 , 0.75 ])

방법 2: 각 숫자 열의 사분위수 계산

 df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )

다음 예에서는 다음 pandas DataFrame에서 실제로 각 메서드를 사용하는 방법을 보여줍니다.

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
                   ' points ': [12, 14, 14, 16, 24, 26, 28, 30, 31, 35],
                   ' assists ': [2, 2, 3, 3, 4, 6, 7, 8, 10, 15]})

#view DataFrame
print (df)

  team points assists
0 to 12 2
1 B 14 2
2 C 14 3
3 D 16 3
4 E 24 4
5 F 26 6
6 G 28 7
7:30 8
8 I 31 10
9 D 35 15

예 1: 열의 사분위수 계산

다음 코드는 포인트 열에 대해서만 사분위수를 계산하는 방법을 보여줍니다.

 #calculate quartiles for points column
df[' points ']. quantile ([ 0.25 , 0.5 , 0.75 ])

0.25 14.5
0.50 25.0
0.75 29.5
Name: points, dtype: float64

결과에서 우리는 다음을 볼 수 있습니다:

  • 첫 번째 사분위수는 14.5 입니다.
  • 두 번째 사분위수는 25 입니다.
  • 3분위수는 29.5 입니다.

이 세 가지 값만 알면 해당 값이 포인트 열에 어떻게 분포되어 있는지 꽤 잘 알 수 있습니다.

예 2: 각 숫자 열의 사분위수 계산

다음 코드는 DataFrame의 각 숫자 열에 대한 사분위수를 계산하는 방법을 보여줍니다.

 #calculate quartiles for each numeric column in DataFrame
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )

      assist points
0.25 14.5 3.00
0.50 25.0 5.00
0.75 29.5 7.75

출력에는 DataFrame의 두 숫자 열의 사분위수가 표시됩니다.

분포의 사분위수를 계산하는 방법에는 여러 가지가 있습니다.

pandas quotile() 함수가 사분위수를 계산하는 데 사용하는 다양한 방법을 보려면 pandas 설명서 페이지를 참조하세요.

추가 리소스

다음 튜토리얼에서는 Pandas에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

팬더의 변화율을 계산하는 방법
팬더에서 누적 백분율을 계산하는 방법
팬더의 그룹 내 합계 비율을 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다