Pandas dataframe에서 중복 행을 제거하는 방법
Pandas DataFrame에서 중복 행을 제거하는 가장 쉬운 방법은 다음 구문을 사용하는 drop_duplicates() 함수를 사용하는 것입니다.
df.drop_duplicates(subset=None, keep=’first’, inplace=False)
금:
- 하위 집합: 중복을 식별하기 위해 고려해야 할 열입니다. 기본값은 모든 열입니다.
- keep: 유지할 중복 항목(있는 경우)을 지정합니다.
- 첫 번째: 첫 번째 줄을 제외한 모든 중복 줄을 제거합니다.
- last: 마지막 줄을 제외한 모든 중복 줄을 제거합니다.
- False : 모든 중복 항목을 제거합니다.
- inplace: 중복 항목을 제자리에서 제거할지 아니면 DataFrame의 복사본을 반환할지를 나타냅니다.
이 튜토리얼에서는 다음 DataFrame에서 이 함수를 실제로 사용하는 몇 가지 예를 제공합니다.
import pandas as pd #createDataFrame df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'], 'points': [3, 7, 7, 8, 8, 9], 'assists': [8, 6, 7, 9, 9, 3]}) #display DataFrame print (df) team points assists 0 to 3 8 1 b 7 6 2 b 7 7 3 c 8 9 4 c 8 9 5 d 9 3
예시 1: 모든 열에서 중복 항목 제거
다음 코드는 모든 열에 중복된 값이 있는 행을 제거하는 방법을 보여줍니다.
df. drop_duplicates ()
team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3
기본적으로 drop_duplicates() 함수는 첫 번째 항목을 제외한 모든 중복 항목을 제거합니다.
그러나 keep=False 인수를 사용하여 모든 중복 항목을 완전히 제거할 수 있습니다.
df. drop_duplicates (keep= False ) team points assists 0 to 3 8 1 b 7 6 2 b 7 7 5 d 9 3
예시 2: 특정 열의 중복 항목 제거
다음 코드는 팀 및 포인트 라는 라벨이 붙은 열에서만 중복 값이 있는 행을 제거하는 방법을 보여줍니다.
df. drop_duplicates (subset=[' team ', ' points ']) team points assists 0 to 3 8 1 b 7 6 3 c 8 9 5 d 9 3
추가 리소스
Pandas에서 중복 열을 제거하는 방법
Pandas DataFrame에서 값을 정렬하는 방법
여러 조건에서 Pandas DataFrame을 필터링하는 방법
Pandas DataFrame에 열을 삽입하는 방법