Python DataFrame: как удалить повторяющиеся строки - Fcodenotes

Чтобы удалить повторяющиеся строки из DataFrame Python, вы можете использовать несколько методов. Вот некоторые часто используемые методы:

Использование метода drop_duulates. Метод drop_duulatesудаляет повторяющиеся строки из DataFrame. По умолчанию сохраняется первое вхождение каждой повторяющейся строки и удаляются последующие дубликаты.

df.drop_duplicates()

Указание столбцов. Вы можете указать подмножество столбцов, которые следует учитывать при выявлении дубликатов. Это может быть полезно, если вы хотите удалить дубликаты на основе определенных столбцов, а не всей строки.

df.drop_duplicates(subset=['column1', 'column2'])

Сохранение последнего вхождения. Чтобы сохранить последнее вхождение каждой повторяющейся строки и удалить предыдущие дубликаты, вы можете использовать параметр keep.

df.drop_duplicates(keep='last')

Удаление на месте. Если вы хотите изменить исходный DataFrame вместо создания нового, вы можете использовать параметр inplace.

df.drop_duplicates(inplace=True)

Использование метода дублированный: метод дублированныйпомечает повторяющиеся строки как True, а неповторяющиеся строки — как False>. Вы можете использовать этот метод для фильтрации повторяющихся строк.

df[~df.duplicated()]