Извлечение года и месяца из столбца даты в Pandas: подробное руководство

Работа с данными о дате и времени — распространенная задача в проектах по анализу данных и науке о данных. В этой статье блога мы рассмотрим различные методы извлечения только года и месяца из столбца даты с использованием популярной библиотеки Python Pandas. Мы предоставим примеры кода и объясним каждый подход в разговорной форме, чтобы новичкам было легче разобраться.

Метод 1: использование метода доступа dt:
Pandas предоставляет удобный метод доступа под названием «dt», который позволяет нам получать доступ к компонентам столбца datetime. Чтобы извлечь год и месяц, мы можем использовать атрибуты «year» и «month» метода доступа «dt» соответственно.

import pandas as pd
# Assuming 'date_column' is the name of your date column
df['year'] = df['date_column'].dt.year
df['month'] = df['date_column'].dt.month

Метод 2. Использование функции strftime():
Другой подход заключается в использовании функции strftime(), которая форматирует дату в соответствии с указанным форматом. Указав коды формата года и месяца, мы можем извлечь нужную информацию.

import pandas as pd
# Assuming 'date_column' is the name of your date column
df['year'] = df['date_column'].dt.strftime('%Y')
df['month'] = df['date_column'].dt.strftime('%m')

Метод 3. Разделение столбца даты.
Если ваш столбец даты имеет строковый формат, вы можете разделить его на отдельные столбцы года и месяца с помощью функции str.split() и индексации строк.

import pandas as pd
# Assuming 'date_column' is the name of your date column in string format
df[['year', 'month']] = df['date_column'].str.split('-', expand=True)[[0, 1]]

Метод 4. Использование функции apply().
Если вам нужна большая гибкость в извлечении года и месяца, вы можете использовать функцию apply() вместе с собственной лямбда-функцией.

import pandas as pd
# Assuming 'date_column' is the name of your date column
df['year'] = df['date_column'].apply(lambda x: x.year)
df['month'] = df['date_column'].apply(lambda x: x.month)

В этой статье мы рассмотрели несколько методов извлечения только года и месяца из столбца даты в Pandas. Мы рассмотрели методы использования метода доступа dt, функции strftime(), разделения строк и функции apply(). В зависимости от ваших конкретных требований и формата столбца даты вы можете выбрать наиболее подходящий метод.

Освоив эти методы, вы получите необходимые инструменты для эффективного манипулирования и анализа данных дат в ваших проектах обработки данных.

Помните: понимание того, как извлекать конкретную информацию из столбцов с датами, имеет решающее значение для проведения глубокого анализа данных и получения ценной информации из данных, основанных на времени.

Продолжайте изучать и экспериментировать с Pandas, чтобы раскрыть весь потенциал своих способностей к анализу данных!