Чтобы удалить повторяющиеся строки из DataFrame Python, вы можете использовать несколько методов. Вот некоторые часто используемые методы:
- Использование метода
drop_duulates. Методdrop_duulatesудаляет повторяющиеся строки из DataFrame. По умолчанию сохраняется первое вхождение каждой повторяющейся строки и удаляются последующие дубликаты.
df.drop_duplicates()
- Указание столбцов. Вы можете указать подмножество столбцов, которые следует учитывать при выявлении дубликатов. Это может быть полезно, если вы хотите удалить дубликаты на основе определенных столбцов, а не всей строки.
df.drop_duplicates(subset=['column1', 'column2'])
- Сохранение последнего вхождения. Чтобы сохранить последнее вхождение каждой повторяющейся строки и удалить предыдущие дубликаты, вы можете использовать параметр
keep.
df.drop_duplicates(keep='last')
- Удаление на месте. Если вы хотите изменить исходный DataFrame вместо создания нового, вы можете использовать параметр
inplace.
df.drop_duplicates(inplace=True)
- Использование метода
дублированный: методдублированныйпомечает повторяющиеся строки какTrue, а неповторяющиеся строки — какFalse>. Вы можете использовать этот метод для фильтрации повторяющихся строк.
df[~df.duplicated()]