Эффективные способы разделения столбца на несколько столбцов в Pandas с использованием разделителей

Разделение одного столбца на несколько столбцов на основе разделителя — распространенная задача при предварительной обработке и анализе данных. В этой статье мы рассмотрим различные методы в pandas, популярной библиотеке Python для манипулирования данными, позволяющие эффективно разбить столбец на несколько столбцов с помощью разделителей. Мы предоставим примеры кода для каждого метода, что позволит вам выбрать наиболее подходящий подход для вашего конкретного случая использования.

Метод 1: использование метода str.split()
Пример кода:

import pandas as pd
# Create a sample DataFrame
data = {'Column1': ['A_B_C', 'D_E_F', 'G_H_I']}
df = pd.DataFrame(data)
# Split the column into multiple columns using the '_' delimiter
df[['Col1', 'Col2', 'Col3']] = df['Column1'].str.split('_', expand=True)
# Display the updated DataFrame
print(df)

Метод 2: использование метода str.extract() с регулярными выражениями
Пример кода:

import pandas as pd
# Create a sample DataFrame
data = {'Column1': ['A1_B2_C3', 'D4_E5_F6', 'G7_H8_I9']}
df = pd.DataFrame(data)
# Extract multiple columns using regular expressions and named groups
df[['Col1', 'Col2', 'Col3']] = df['Column1'].str.extract(r'(?P<Col1>\w+)\_(?P<Col2>\w+)\_(?P<Col3>\w+)')
# Display the updated DataFrame
print(df)

Метод 3: использование метода str.split() с расширенным = True и метода join()
Пример кода:

import pandas as pd
# Create a sample DataFrame
data = {'Column1': ['A_B_C', 'D_E_F', 'G_H_I']}
df = pd.DataFrame(data)
# Split the column into multiple columns using the '_' delimiter and join them back
df[['Col1', 'Col2', 'Col3']] = df['Column1'].str.split('_', expand=True).apply(lambda x: x.str.join('_'))
# Display the updated DataFrame
print(df)

Метод 4: использование методов str.split() и метода Assign()
Пример кода:

import pandas as pd
# Create a sample DataFrame
data = {'Column1': ['A_B_C', 'D_E_F', 'G_H_I']}
df = pd.DataFrame(data)
# Split the column into multiple columns using the '_' delimiter and assign them to new columns
df = df.assign(Col1=df['Column1'].str.split('_').str[0],
               Col2=df['Column1'].str.split('_').str[1],
               Col3=df['Column1'].str.split('_').str[2])
# Display the updated DataFrame
print(df)

В этой статье мы рассмотрели несколько методов в pandas для разделения столбца на несколько столбцов с помощью разделителей. Мы рассмотрели такие методы, как использование метода str.split(), метода str.extract()с регулярными выражениями и сочетание str.split()с apply(). или assign()методов. Используя эти методы, вы можете эффективно разбивать столбцы и извлекать ценную информацию из набора данных. Эти методы имеют неоценимое значение для задач предварительной обработки и анализа данных, позволяя извлекать из данных значимую информацию.