Python DataFrame: как удалить повторяющиеся строки

Чтобы удалить повторяющиеся строки из DataFrame Python, вы можете использовать несколько методов. Вот некоторые часто используемые методы:

  1. Использование метода drop_duulates. Метод drop_duulatesудаляет повторяющиеся строки из DataFrame. По умолчанию сохраняется первое вхождение каждой повторяющейся строки и удаляются последующие дубликаты.
df.drop_duplicates()
  1. Указание столбцов. Вы можете указать подмножество столбцов, которые следует учитывать при выявлении дубликатов. Это может быть полезно, если вы хотите удалить дубликаты на основе определенных столбцов, а не всей строки.
df.drop_duplicates(subset=['column1', 'column2'])
  1. Сохранение последнего вхождения. Чтобы сохранить последнее вхождение каждой повторяющейся строки и удалить предыдущие дубликаты, вы можете использовать параметр keep.
df.drop_duplicates(keep='last')
  1. Удаление на месте. Если вы хотите изменить исходный DataFrame вместо создания нового, вы можете использовать параметр inplace.
df.drop_duplicates(inplace=True)
  1. Использование метода дублированный: метод дублированныйпомечает повторяющиеся строки как True, а неповторяющиеся строки — как False>. Вы можете использовать этот метод для фильтрации повторяющихся строк.
df[~df.duplicated()]