10 удобных методов обрезки данных в Pandas: практическое руководство

В мире анализа данных часто приходится работать с большими наборами данных и извлекать релевантную информацию. Одной из распространенных задач является усечение или обрезка данных в DataFrame Pandas. Усечение данных позволяет вам ограничить размер набора данных или сосредоточиться на определенных его частях. В этой статье мы рассмотрим несколько методов усечения данных в Pandas, используя простые примеры кода и разговорный язык.

Метод 1: использование метода head()
Метод head() — это быстрый способ усечь DataFrame и сохранить только первые N строк. Например, df.head(100)сохранит только первые 100 строк DataFrame «df».

Метод 2: использование метода Tail()
Подобно методу head(), метод Tail() позволяет усекать DataFrame, сохраняя только последние N строк. Например, df.tail(50)сохранит последние 50 строк DataFrame «df».

Метод 3: нарезка с помощью iloc
Pandas предоставляет индексатор iloc, который позволяет нарезать DataFrame, указав индексы строк и столбцов. Например, df.iloc[:100, :]усекает DataFrame до первых 100 строк, сохраняя все столбцы.

Метод 4. Фильтрация с помощью логического индексирования
Вы можете усечь DataFrame, создав логическую маску и применив ее в качестве индекса. Например, df[df['column'] < 0]сохранит только те строки, в которых значения в столбце меньше 0.

Метод 5: использование метода query()
Метод query() позволяет усекать DataFrame, указав условие с помощью строки запроса. Например, df.query('column < 0')сохранит только те строки, в которых значения в столбце меньше 0.

Метод 6: усечение на основе значений столбца
Вы можете усечь DataFrame на основе определенных значений столбца, используя метод isin(). Например, df[df['column'].isin(['value1', 'value2'])]сохранит только те строки, в которых значения в столбце — «значение1» или «значение2».

Метод 7. Использование метода drop()
Метод drop() позволяет усекать DataFrame, удаляя определенные строки или столбцы. Например, df.drop(index=[1, 2, 3])удалит строки с индексами 1, 2 и 3 из DataFrame «df».

Метод 8: усечение на основе условий
Вы можете усечь DataFrame, применив несколько условий с помощью логических операторов, таких как &(и) и |(или). Например, df[(df['column1'] > 0) & (df['column2'] < 10)]сохранит только те строки, где значение столбца 1 больше 0, а значение столбца 2 меньше 10.

Метод 9: Выборка данных
Pandas предоставляет метод sample(), который позволяет случайным образом обрезать DataFrame, указав количество сохраняемых строк. Например, df.sample(n=500)сохранит случайную выборку из 500 строк из DataFrame «df».

Метод 10: усечение на основе даты и времени
Если ваш DataFrame содержит столбец даты и времени, вы можете усечь его на основе определенных диапазонов времени. Например, df[(df['datetime_column'] >= '2022-01-01') & (df['datetime_column'] < '2023-01-01')]сохранит только строки в пределах указанного диапазона времени.

Усечение данных в Pandas — важнейший навык для аналитиков данных и ученых. В этой статье мы рассмотрели десять различных методов усечения DataFrame, начиная от простых методов, таких как head() и Tail(), и заканчивая продвинутыми методами, такими как запросы и нарезки. Освоив эти методы, вы получите инструменты для извлечения и сосредоточения внимания на данных, наиболее важных для вашего анализа.