팬더에서 중복을 계산하는 방법: 예제 포함
다음 방법을 사용하여 Pandas DataFrame에서 중복 항목을 계산할 수 있습니다.
방법 1: 열의 중복 값 계산
len (df[' my_column ']) - len (df[' my_column ']. drop_duplicates ())
방법 2: 중복 행 계산
len (df) -len ( df.drop_duplicates ())
방법 3: 각 고유 행의 중복 횟수 계산
df. groupby ( df.columns.tolist (), as_index= False ) . size ()
다음 예에서는 다음 pandas DataFrame에서 실제로 각 메서드를 사용하는 방법을 보여줍니다.
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'], ' position ': ['G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'], ' points ': [5, 5, 8, 10, 5, 7, 10, 10]}) #view DataFrame print (df) team position points 0 AG 5 1 GA 5 2 AG 8 3 AF 10 4 BG 5 5 BG 7 6 BF 10 7 BF 10
예시 1: 열의 중복 값 계산
다음 코드는 포인트 열의 중복 값 수를 계산하는 방법을 보여줍니다.
#count duplicate values in points column
len (df[' points '])- len (df[' points ']. drop_duplicates ())
4
포인트 열에 4개의 중복된 값이 있는 것을 볼 수 있습니다.
예시 2: 중복 행 계산
다음 코드는 DataFrame에서 중복 행 수를 계산하는 방법을 보여줍니다.
#count number of duplicate rows
len (df) -len ( df.drop_duplicates ())
2
DataFrame에 2개의 중복 행이 있는 것을 볼 수 있습니다.
다음 구문을 사용하여 2개의 중복 라인을 표시할 수 있습니다.
#display duplicated rows
df[df. duplicated ()]
team position points
1 A G 5
7 B F 10
예시 3: 각 고유 행의 중복 횟수 계산
다음 코드는 DataFrame의 각 고유 행에 대한 중복 수를 계산하는 방법을 보여줍니다.
#display number of duplicates for each unique row
df. groupby ( df.columns.tolist (), as_index= False ) . size ()
team position points size
0 A F 10 1
1 A G 5 2
2 A G 8 1
3 B F 10 2
4 B G 5 1
5 B G 7 1
크기 열에는 각 고유 행의 중복 수가 표시됩니다.
추가 리소스
다음 튜토리얼에서는 Pandas에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.
Pandas에서 중복 행을 제거하는 방법
Pandas에서 중복 열을 제거하는 방법
Pandas에서 인덱스로 열을 선택하는 방법