7 эффективных способов выбора конкретных имен столбцов из фрейма данных Pandas

Работа с данными в Python часто предполагает манипулирование и анализ табличных данных, хранящихся в DataFrames. Иногда вам может потребоваться выбрать только определенные столбцы из DataFrame, чтобы сосредоточиться на соответствующей информации. В этом сообщении блога мы рассмотрим различные методы выполнения этой задачи с использованием Pandas, мощной библиотеки манипулирования данными на Python. Итак, давайте углубимся и узнаем семь эффективных способов выбора конкретных имен столбцов из DataFrame Pandas!

Метод 1: использование скобочных обозначений
Самый простой способ выбрать определенные столбцы — использовать скобочные обозначения. Вы можете передать список имен столбцов в скобках, и Pandas вернет новый DataFrame, содержащий только эти столбцы. Вот пример:

selected_columns = df[['column_name1', 'column_name2', 'column_name3']]

Метод 2: использование аксессора loc
Аксессор locв Pandas предоставляет мощный способ выбора определенных столбцов по метке. Вы можете передать имена столбцов в виде списка в функции loc, чтобы создать новый DataFrame только с нужными столбцами. Вот пример:

selected_columns = df.loc[:, ['column_name1', 'column_name2', 'column_name3']]

Метод 3. Использование метода доступа iloc.
Подобно методу доступа loc, метод доступа ilocпозволяет выбирать столбцы на основе их целочисленные позиции. Передавая индексы столбцов в виде списка в функции iloc, вы можете создать новый DataFrame с нужными столбцами. Вот пример:

selected_columns = df.iloc[:, [0, 1, 2]]

Метод 4. Использование функции filter.
Pandas предоставляет функцию filter, которая позволяет выбирать столбцы на основе заданного шаблона или условия. Вы можете передать шаблон регулярного выражения или список имен столбцов в функцию filter, и она вернет новый DataFrame с соответствующими столбцами. Вот пример:

selected_columns = df.filter(regex='column_name')

Метод 5: использование метода get
Метод getв Pandas может быть удобен, если вы хотите выбрать один столбец из DataFrame. Передав имя столбца в качестве аргумента методу get, вы можете получить этот конкретный столбец как серию Pandas. Вот пример:

selected_column = df.get('column_name')

Метод 6: использование логического индексирования
Булевое индексирование позволяет выбирать столбцы на основе условия. Вы можете создать логическую маску, сравнив имена столбцов с условием, а затем передать эту маску в DataFrame для извлечения нужных столбцов. Вот пример:

selected_columns = df[df.columns[df.columns.str.startswith('column_prefix')]]

Метод 7. Использование метода query
Метод queryв Pandas позволяет выбирать столбцы на основе выражения запроса. Этот метод обеспечивает краткий способ фильтрации столбцов на основе определенных условий. Вот пример:

selected_columns = df.query('column_name1 == condition and column_name2 > condition')

В этой статье мы рассмотрели семь эффективных методов выбора конкретных имен столбцов из DataFrame Pandas. Эти методы обеспечивают гибкость и простоту использования при работе с табличными данными. Предпочитаете ли вы обозначение скобок, средства доступа, такие как locи iloc, функции фильтрации, такие как filterи query, или даже логические значения индексации, у вас есть множество вариантов извлечения нужных столбцов. Используя эти методы, вы можете оптимизировать рабочий процесс анализа данных и сосредоточиться на наиболее важных данных.