10 удобных способов удаления строк в Pandas в зависимости от условий - Fcodenotes

При работе с данными в Python библиотека Pandas является мощным инструментом для манипулирования и анализа данных. Одной из распространенных задач является удаление строк из DataFrame на основе определенных условий. В этой статье блога мы рассмотрим различные методы достижения этой цели, используя разговорный язык, и предоставим примеры кода для каждого подхода. Итак, давайте углубимся и изучим некоторые удобные методы удаления строк в Pandas!

Метод 1: использование логического индексирования
Первый метод предполагает использование логического индексирования для удаления строк на основе условия. Допустим, у нас есть DataFrame с именем df, и мы хотим удалить все строки, в которых столбец age меньше 18. Мы можем добиться этого, используя следующий фрагмент кода:

df = df[df['age'] >= 18]

Метод 2: фильтрация строк с помощью метода query()
Pandas предоставляет удобный метод под названием query(), который позволяет нам фильтровать строки на основе условия. Например, если мы хотим удалить все строки, в которых в столбце «пол» указано «Мужской», мы можем использовать этот код:

df = df.query("gender != 'Male'")

Метод 3: использование метода drop() с условием
Другой подход — использовать метод drop()вместе с условием для удаления строк. Предположим, мы хотим удалить все строки, в которых отсутствует столбец «доход», мы можем сделать это следующим образом:

df = df.drop(df[df['income'].isnull()].index)

Метод 4: удаление строк на основе нескольких условий
Чтобы удалить строки на основе нескольких условий, мы можем объединить их с помощью логических операторов. Например, если мы хотим удалить строки, в которых столбец «возраст» меньше 18, а столбец «доход» больше 50 000, мы можем использовать следующий код:

df = df.drop(df[(df['age'] < 18) & (df['income'] > 50000)].index)

Метод 5. Удаление строк с помощью метода dropna()
Если вы хотите удалить строки с пропущенными значениями в любом столбце, вы можете использовать метод dropna(). Вот пример:

df = df.dropna()

Метод 6: удаление дубликатов на основе подмножества столбцов
Чтобы удалить повторяющиеся строки на основе подмножества столбцов, мы можем использовать метод drop_duplicates(). Предположим, мы хотим удалить дубликаты на основе столбцов «имя» и «возраст». Мы можем сделать это следующим образом:

df = df.drop_duplicates(subset=['name', 'age'])

Метод 7. Удаление строк по индексной метке
Если вам известны индексные метки строк, которые вы хотите удалить, вы можете использовать метод drop()с конкретными индексными метками. Вот пример:

df = df.drop([1, 3, 5])

Метод 8. Удаление строк на основе пользовательской функции
В некоторых случаях у вас может быть пользовательская функция, определяющая условие удаления строк. Вы можете использовать метод apply(), чтобы применить функцию к каждой строке и удалить строки, соответствующие условию. Вот пример, в котором мы удаляем строки, в которых столбец «высота» ниже средней высоты:

average_height = df['height'].mean()
def drop_rows(row):
    if row['height'] < average_height:
        return True
    else:
        return False
df = df.drop(df[df.apply(drop_rows, axis=1)].index)

Метод 9: Удаление строк с помощью iloc или loc
Вы также можете удалить строки с помощью метода доступа ilocили loc. Например, чтобы удалить первые три строки, вы можете сделать это так:

df = df.iloc[3:]

Метод 10. Удаление строк на основе регулярного выражения
Если вы хотите удалить строки на основе шаблона в определенном столбце, вы можете использовать регулярные выражения вместе с методом str.contains(). Вот пример, в котором мы удаляем строки, в которых столбец «имя» содержит слово «Джон»:

df = df[~df['name'].str.contains('John')]

В этой статье мы рассмотрели десять различных методов удаления строк в Pandas в зависимости от различных условий. Эти методы обеспечивают гибкость и контроль над задачами по манипулированию данными. Используя логическое индексирование, методы запроса, функции удаления и многое другое, вы можете легко отфильтровать ненужные строки из вашего DataFrame. Не забудьте выбрать метод, который лучше всего соответствует вашим конкретным требованиям, и наслаждайтесь мощью Pandas в манипулировании данными!