Pandas dataframe에서 중복 행을 제거하는 방법

에 의해 벤자민 앤더슨 7월 26, 2023 가이드 댓글 0개

Pandas DataFrame에서 중복 행을 제거하는 가장 쉬운 방법은 다음 구문을 사용하는 drop_duplicates() 함수를 사용하는 것입니다.

df.drop_duplicates(subset=None, keep=’first’, inplace=False)

금:

하위 집합: 중복을 식별하기 위해 고려해야 할 열입니다. 기본값은 모든 열입니다.
keep: 유지할 중복 항목(있는 경우)을 지정합니다.
- 첫 번째: 첫 번째 줄을 제외한 모든 중복 줄을 제거합니다.
- last: 마지막 줄을 제외한 모든 중복 줄을 제거합니다.
- False : 모든 중복 항목을 제거합니다.
inplace: 중복 항목을 제자리에서 제거할지 아니면 DataFrame의 복사본을 반환할지를 나타냅니다.

이 튜토리얼에서는 다음 DataFrame에서 이 함수를 실제로 사용하는 몇 가지 예를 제공합니다.

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'],
                   'points': [3, 7, 7, 8, 8, 9],
                   'assists': [8, 6, 7, 9, 9, 3]})

#display DataFrame
print (df)

  team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
4 c 8 9
5 d 9 3

예시 1: 모든 열에서 중복 항목 제거

다음 코드는 모든 열에 중복된 값이 있는 행을 제거하는 방법을 보여줍니다.

 df. drop_duplicates ()

        team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3

기본적으로 drop_duplicates() 함수는 첫 번째 항목을 제외한 모든 중복 항목을 제거합니다.

그러나 keep=False 인수를 사용하여 모든 중복 항목을 완전히 제거할 수 있습니다.

 df. drop_duplicates (keep= False )

	team points assists
0 to 3 8
1 b 7 6
2 b 7 7
5 d 9 3

예시 2: 특정 열의 중복 항목 제거

다음 코드는 팀 및 포인트 라는 라벨이 붙은 열에서만 중복 값이 있는 행을 제거하는 방법을 보여줍니다.

 df. drop_duplicates (subset=[' team ', ' points '])

        team points assists
0 to 3 8
1 b 7 6
3 c 8 9
5 d 9 3

추가 리소스

Pandas에서 중복 열을 제거하는 방법
Pandas DataFrame에서 값을 정렬하는 방법
여러 조건에서 Pandas DataFrame을 필터링하는 방법
Pandas DataFrame에 열을 삽입하는 방법

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

예시 1: 모든 열에서 중복 항목 제거

예시 2: 특정 열의 중복 항목 제거

추가 리소스

저자 소개

벤자민 앤더슨

의견을 추가하다