Полное руководство: выбор подмножества столбцов из DataFrame

Работа с данными часто предполагает извлечение определенных столбцов из DataFrame. В этой статье мы рассмотрим различные методы выбора подмножества столбцов из DataFrame с использованием Python и библиотеки Pandas. Мы предоставим примеры кода для каждого метода, чтобы помочь вам понять и реализовать их в своих проектах.

Метод 1: использование имен столбцов
Один из самых простых способов выбрать столбцы — указать их имена. Вы можете использовать скобки для доступа к нужным столбцам.

import pandas as pd
# Create a DataFrame
data = {'Name': ['John', 'Emma', 'David'],
        'Age': [25, 30, 35],
        'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
# Select columns by name
selected_columns = df[['Name', 'Age']]
print(selected_columns)

Выход:

   Name  Age
0  John   25
1  Emma   30
2  David  35

Метод 2: использование iloc
Индексатор iloc позволяет выбирать столбцы по их целочисленной позиции. Вы можете указать позиции столбцов, которые хотите извлечь.

import pandas as pd
# Create a DataFrame
data = {'Name': ['John', 'Emma', 'David'],
        'Age': [25, 30, 35],
        'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
# Select columns by integer position
selected_columns = df.iloc[:, [0, 2]]
print(selected_columns)

Выход:

   Name      City
0  John   New York
1  Emma   London
2  David  Paris

Метод 3: использование loc
Индексатор loc позволяет выбирать столбцы по их меткам. Вы можете указать метки столбцов, которые хотите извлечь.

import pandas as pd
# Create a DataFrame
data = {'Name': ['John', 'Emma', 'David'],
        'Age': [25, 30, 35],
        'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
# Select columns by label
selected_columns = df.loc[:, ['Name', 'City']]
print(selected_columns)

Выход:

   Name      City
0  John   New York
1  Emma   London
2  David  Paris

Метод 4. Использование фильтра.
Метод фильтра позволяет выбирать столбцы на основе шаблона или подстроки, присутствующей в их именах.

import pandas as pd
# Create a DataFrame
data = {'Name': ['John', 'Emma', 'David'],
        'Age': [25, 30, 35],
        'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
# Select columns by name pattern
selected_columns = df.filter(like='a')
print(selected_columns)

Выход:

   Name      Age
0  John   25
1  Emma   30
2  David  35

Метод 5: использование drop
Метод drop позволяет удалить ненужные столбцы из DataFrame, оставив только нужные столбцы.

import pandas as pd
# Create a DataFrame
data = {'Name': ['John', 'Emma', 'David'],
        'Age': [25, 30, 35],
        'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
# Drop unwanted columns
selected_columns = df.drop(['Age', 'City'], axis=1)
print(selected_columns)

Выход:

   Name
0  John
1  Emma
2  David

В этой статье мы рассмотрели несколько методов выбора подмножества столбцов из DataFrame с использованием Pandas в Python. Вы можете выбрать метод, который лучше всего соответствует вашим требованиям, основываясь на именах столбцов, позициях, метках, шаблонах или даже путем удаления ненужных столбцов. Освоив эти методы, вы сможете гибко работать с конкретными столбцами и выполнять эффективный анализ и обработку данных.

Не забудьте настроить примеры кода в соответствии с вашими требованиями к DataFrame и столбцам. Приятного кодирования!