Объединение нескольких файлов CSV с помощью конкатенации в Python: подробное руководство

Объединение нескольких файлов CSV в один — распространенная задача при анализе и предварительной обработке данных. В этой статье блога мы рассмотрим различные методы объединения и объединения файлов CSV с помощью функции concatenate, а затем экспортируем полученный DataFrame в формат CSV. Мы предоставим пошаговые инструкции и примеры кода на Python, чтобы вам было легче следовать им. Итак, приступим!

Метод 1: использование pandas.concat()
Библиотека pandas предоставляет мощную функцию под названием concat(), которая позволяет нам объединять несколько DataFrames. Вот как его использовать:

import pandas as pd
# List of CSV files to merge
file_list = ['file1.csv', 'file2.csv', 'file3.csv']
# Empty list to store DataFrames
dfs = []
# Read and append DataFrames
for file in file_list:
    df = pd.read_csv(file)
    dfs.append(df)
# Concatenate DataFrames
merged_df = pd.concat(dfs)
# Export the merged DataFrame to CSV
merged_df.to_csv('merged_file.csv', index=False)

Метод 2: использование glob и pandas.
Если у вас в каталоге большое количество CSV-файлов, вы можете использовать модуль globдля получения имен файлов, а затем объединить их с помощью pandas. :

import glob
import pandas as pd
# Path to the directory containing CSV files
directory = 'path/to/csv/files/'
# Get the list of CSV files
file_list = glob.glob(directory + '*.csv')
# Empty list to store DataFrames
dfs = []
# Read and append DataFrames
for file in file_list:
    df = pd.read_csv(file)
    dfs.append(df)
# Concatenate DataFrames
merged_df = pd.concat(dfs)
# Export the merged DataFrame to CSV
merged_df.to_csv('merged_file.csv', index=False)

Метод 3: использование pd.concat() с осью=1
В некоторых случаях вам может потребоваться объединить файлы CSV горизонтально (по столбцам), а не вертикально (по строкам). Этого можно добиться, установив для параметра axisзначение 1:

import pandas as pd
# List of CSV files to merge
file_list = ['file1.csv', 'file2.csv', 'file3.csv']
# Empty list to store DataFrames
dfs = []
# Read and append DataFrames
for file in file_list:
    df = pd.read_csv(file)
    dfs.append(df)
# Concatenate DataFrames horizontally
merged_df = pd.concat(dfs, axis=1)
# Export the merged DataFrame to CSV
merged_df.to_csv('merged_file.csv', index=False)

.

В этой статье мы рассмотрели различные методы объединения нескольких файлов CSV с помощью функции concatenateв Python. Мы рассмотрели использование pandas.concat()для вертикальной конкатенации, использование globи pandas для объединения файлов из каталога и горизонтальное объединение файлов с помощью axis=1. Следуя этим примерам, вы сможете легко объединить файлы CSV в один DataFrame и экспортировать его в формат CSV для дальнейшего анализа.