Эффективная обработка данных: загрузка больших наборов данных частями с помощью Pandas

Чтобы загрузить большой набор данных частями с помощью библиотеки pandas в Python, вы можете использовать параметр chunksizeв функции read_csv(). Этот параметр позволяет указать количество строк для чтения за раз, что позволяет обрабатывать данные порциями, а не загружать весь набор данных в память сразу.

Вот пример фрагмента кода, демонстрирующий загрузку CSV-файла частями:

import pandas as pd
# Define the chunk size
chunk_size = 1000
# Create an iterator object
data_iterator = pd.read_csv('your_file.csv', chunksize=chunk_size)
# Process each chunk
for chunk in data_iterator:
    # Perform operations on the chunk
    # For example, you can filter, transform, or analyze data

    # Print the first few rows of the chunk
    print(chunk.head())

В этом примере для переменной chunk_sizeустановлено значение 1000, что указывает на то, что каждый фрагмент будет содержать 1000 строк данных. Функция read_csv()возвращает объект-итератор, который можно использовать для циклического перебора данных по частям. Внутри цикла вы можете выполнять любые операции с каждым фрагментом данных.

Обрабатывая данные порциями, вы можете обрабатывать большие наборы данных, которые могут не полностью помещаться в памяти, и избегать проблем, связанных с памятью.