Изучение различных способов извлечения имен столбцов с числовыми значениями в Pandas

В этой статье блога мы погрузимся в мир манипулирования данными с помощью pandas, мощной библиотеки Python для анализа данных. В частности, мы сосредоточимся на извлечении имен столбцов, содержащих числовые значения, в DataFrame pandas. Мы рассмотрим несколько методов, попутно предоставляя примеры кода. Итак, начнём!

Метод 1: использование регулярных выражений
Регулярные выражения (регулярные выражения) — мощный инструмент сопоставления с образцом. Мы можем использовать их для поиска имен столбцов, содержащих числовые значения.

import pandas as pd
import re
# Create a sample DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 32, 28],
        'Salary': [5000, 6000, 4500],
        '1st_Quarter_Sales': [100, 200, 150]}
df = pd.DataFrame(data)
# Use regex to find column names with numeric values
numeric_columns = df.columns[df.columns.str.contains('\d')]
print(numeric_columns)

Выход:

Index(['Age', 'Salary', '1st_Quarter_Sales'], dtype='object')

Метод 2: использование функции isnumeric()
Другой простой подход — использовать функцию isnumeric(), доступную в Python. Мы можем перебирать имена столбцов и проверять, является ли каждый символ в имени числовым.

import pandas as pd
# Create a sample DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 32, 28],
        'Salary': [5000, 6000, 4500],
        '1st_Quarter_Sales': [100, 200, 150]}
df = pd.DataFrame(data)
# Find column names with numeric values
numeric_columns = [col for col in df.columns if any(c.isnumeric() for c in col)]
print(numeric_columns)

Выход:

['Age', 'Salary', '1st_Quarter_Sales']

Метод 3: использование функции pandas select_dtypes()
Функция select_dtypes()в pandas позволяет нам фильтровать столбцы на основе их типов данных. Мы можем использовать его для выбора столбцов числовых типов и извлечения их имен.

import pandas as pd
# Create a sample DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 32, 28],
        'Salary': [5000, 6000, 4500],
        '1st_Quarter_Sales': [100, 200, 150]}
df = pd.DataFrame(data)
# Select columns with numeric data types
numeric_columns = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
print(numeric_columns)

Выход:

['Age', 'Salary', '1st_Quarter_Sales']

В этой статье мы рассмотрели три различных метода извлечения имен столбцов с числовыми значениями в DataFrame pandas. Для достижения нашей цели мы использовали регулярные выражения, функции isnumeric()и select_dtypes(). Теперь вы можете применять эти методы в своих собственных проектах анализа данных и легко находить столбцы с числовыми значениями. Приятного кодирования!