Jak usunąć zduplikowane kolumny w pandach (z przykładami)


Aby usunąć zduplikowane kolumny w pandach, możesz użyć następującej podstawowej składni:

 df. T. drop_duplicates (). T

Poniższe przykłady pokazują, jak używać tej składni w praktyce.

Przykład: usuń zduplikowane kolumny w Pandach

Załóżmy, że mamy następującą ramkę DataFrame pand:

 import pandas as pd

#create DataFrame with duplicate columns
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

df. columns = ['team', 'points', 'points', 'rebounds']

#view DataFrame
df

	team points points rebounds
0 A 25 25 11
1 A 12 12 8
2 A 15 15 10
3 A 14 14 6
4 B 19 19 6
5 B 23 23 5
6 B 25 25 9
7 B 29 29 12

Możemy użyć następującego kodu, aby usunąć zduplikowaną kolumnę „punkty”:

 #remove duplicate columns
df. T. drop_duplicates (). T

team points rebounds
0 to 25 11
1 to 12 8
2 to 15 10
3 to 14 6
4 B 19 6
5 B 23 5
6 B 25 9
7 B 29 12

Należy zauważyć, że kolumna „punkty” została usunięta, podczas gdy wszystkie pozostałe kolumny pozostały w ramce DataFrame.

Warto również zauważyć, że ten kod usunie zduplikowane kolumny, nawet jeśli kolumny mają różne nazwy, ale zawierają identyczne wartości.

Załóżmy na przykład, że mamy następującą ramkę danych pand:

 import pandas as pd

#create DataFrame with duplicate columns
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' points2 ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
df

	team points points2 rebounds
0 A 25 25 11
1 A 12 12 8
2 A 15 15 10
3 A 14 14 6
4 B 19 19 6
5 B 23 23 5
6 B 25 25 9
7 B 29 29 12

Należy pamiętać, że kolumny „punkty” i „punkty2” zawierają identyczne wartości.

Możemy użyć następującego kodu, aby usunąć zduplikowaną kolumnę „points2”:

 #remove duplicate columns
df. T. drop_duplicates (). T

team points rebounds
0 to 25 11
1 to 12 8
2 to 15 10
3 to 14 6
4 B 19 6
5 B 23 5
6 B 25 9
7 B 29 12

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe funkcje w pandach:

Jak usunąć zduplikowane wiersze w ramce danych Pandas
Jak usunąć kolumny w Pandach
Jak wykluczyć kolumny w Pandach

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *