Освоение манипулирования данными с помощью Pandas: раскрытие возможностей новых столбцов

В мире анализа и обработки данных Pandas – это популярная библиотека Python, предоставляющая мощные инструменты для обработки структурированных данных. Одной из распространенных задач является добавление новых столбцов в DataFrame, что позволяет нам получать новую информацию или преобразовывать существующие данные. В этой статье блога мы рассмотрим различные методы добавления новых столбцов в DataFrame Pandas, сопровождаемые примерами кода и разговорными объяснениями, которые помогут вам эффективно освоить эти методы.

Метод 1: использование оператора присваивания
Самый простой и понятный способ добавить новый столбец в DataFrame — использовать оператор присваивания. Мы можем присвоить DataFrame новое имя столбца и предоставить объект в виде списка или массива, содержащий значения для этого столбца.

import pandas as pd
df = pd.DataFrame({'Name': ['John', 'Emma', 'Michael'],
                   'Age': [25, 30, 35]})
df['City'] = ['New York', 'London', 'Sydney']

Метод 2: применение функции
Еще один мощный метод — применение функции к существующим столбцам и использование ее возвращаемых значений для создания нового столбца. Этот метод особенно полезен, когда нам нужно выполнить сложные вычисления или преобразования существующих данных.

def calculate_salary(age):
    if age < 30:
        return 50000
    else:
        return 70000
df['Salary'] = df['Age'].apply(calculate_salary)

Метод 3: векторизованные операции
Pandas предоставляет оптимизированные векторизованные операции, которые позволяют нам выполнять поэлементные вычисления над целыми столбцами без необходимости явных циклов. Этот подход может значительно повысить производительность при работе с большими наборами данных.

df['Age_in_months'] = df['Age'] * 12

Метод 4: использование метода Assign()
Метод assign()позволяет нам добавлять несколько столбцов в DataFrame за одну операцию. Он возвращает новый DataFrame с добавленными столбцами, оставляя исходный DataFrame неизменным.

df = df.assign(Profession=['Engineer', 'Teacher', 'Doctor'],
               Experience=[3, 5, 8])

Метод 5: объединение фреймов данных
Если у нас есть другой фрейм данных со связанной информацией, мы можем объединить два фрейма данных на основе общего ключа и создать новый столбец на основе объединенных данных.

df2 = pd.DataFrame({'Name': ['John', 'Emma', 'Michael'],
                    'Country': ['USA', 'UK', 'Australia']})
df = pd.merge(df, df2, on='Name')

В этой статье мы рассмотрели пять методов добавления новых столбцов в DataFrame Pandas. Мы начали с базового оператора присваивания и перешли к более сложным методам, таким как применение функций, использование векторизованных операций, использование метода assign()и объединение DataFrames. Освоив эти методы, вы получите прочную основу для манипулирования данными с помощью Pandas и извлечения ценной информации.