Чтобы загрузить большой набор данных частями с помощью библиотеки pandas в Python, вы можете использовать параметр chunksizeв функции read_csv(). Этот параметр позволяет указать количество строк для чтения за раз, что позволяет обрабатывать данные порциями, а не загружать весь набор данных в память сразу.
Вот пример фрагмента кода, демонстрирующий загрузку CSV-файла частями:
import pandas as pd
# Define the chunk size
chunk_size = 1000
# Create an iterator object
data_iterator = pd.read_csv('your_file.csv', chunksize=chunk_size)
# Process each chunk
for chunk in data_iterator:
# Perform operations on the chunk
# For example, you can filter, transform, or analyze data
# Print the first few rows of the chunk
print(chunk.head())
В этом примере для переменной chunk_sizeустановлено значение 1000, что указывает на то, что каждый фрагмент будет содержать 1000 строк данных. Функция read_csv()возвращает объект-итератор, который можно использовать для циклического перебора данных по частям. Внутри цикла вы можете выполнять любые операции с каждым фрагментом данных.
Обрабатывая данные порциями, вы можете обрабатывать большие наборы данных, которые могут не полностью помещаться в памяти, и избегать проблем, связанных с памятью.