Pandas dataframe에서 중복 행을 제거하는 방법


Pandas DataFrame에서 중복 행을 제거하는 가장 쉬운 방법은 다음 구문을 사용하는 drop_duplicates() 함수를 사용하는 것입니다.

df.drop_duplicates(subset=None, keep=’first’, inplace=False)

금:

  • 하위 집합: 중복을 식별하기 위해 고려해야 할 열입니다. 기본값은 모든 열입니다.
  • keep: 유지할 중복 항목(있는 경우)을 지정합니다.
    • 첫 번째: 첫 번째 줄을 제외한 모든 중복 줄을 제거합니다.
    • last: 마지막 줄을 제외한 모든 중복 줄을 제거합니다.
    • False : 모든 중복 항목을 제거합니다.
  • inplace: 중복 항목을 제자리에서 제거할지 아니면 DataFrame의 복사본을 반환할지를 나타냅니다.

이 튜토리얼에서는 다음 DataFrame에서 이 함수를 실제로 사용하는 몇 가지 예를 제공합니다.

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'],
                   'points': [3, 7, 7, 8, 8, 9],
                   'assists': [8, 6, 7, 9, 9, 3]})

#display DataFrame
print (df)

  team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
4 c 8 9
5 d 9 3

예시 1: 모든 열에서 중복 항목 제거

다음 코드는 모든 열에 중복된 값이 있는 행을 제거하는 방법을 보여줍니다.

 df. drop_duplicates ()

        team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3

기본적으로 drop_duplicates() 함수는 첫 번째 항목을 제외한 모든 중복 항목을 제거합니다.

그러나 keep=False 인수를 사용하여 모든 중복 항목을 완전히 제거할 수 있습니다.

 df. drop_duplicates (keep= False )

	team points assists
0 to 3 8
1 b 7 6
2 b 7 7
5 d 9 3

예시 2: 특정 열의 중복 항목 제거

다음 코드는 포인트 라는 라벨이 붙은 열에서만 중복 값이 있는 행을 제거하는 방법을 보여줍니다.

 df. drop_duplicates (subset=[' team ', ' points '])

        team points assists
0 to 3 8
1 b 7 6
3 c 8 9
5 d 9 3

추가 리소스

Pandas에서 중복 열을 제거하는 방법
Pandas DataFrame에서 값을 정렬하는 방법
여러 조건에서 Pandas DataFrame을 필터링하는 방법
Pandas DataFrame에 열을 삽입하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다