Улучшите свой опыт работы с Pandas с помощью tqdm.pandas

Вы устали ждать завершения операций Pandas? Вы смотрите на экран и задаетесь вопросом, работает ли ваш код или он просто завис? Если да, то вам повезло! В этой статье мы рассмотрим потрясающий инструмент под названием tqdm.pandas, который радикально изменит ваш опыт работы с Pandas и упростит ваши задачи по анализу данных.

Что такое tqdm.pandas?

tqdm.pandas— это расширение популярной библиотеки Python tqdm(что по-арабски означает «taqaddum», что на английском означает «прогресс»). Он легко интегрируется с Pandas и предоставляет индикатор выполнения, который информирует вас о состоянии ваших задач по обработке данных. С tqdm.pandasвам никогда не придется задаваться вопросом, работает ли ваш код, или оценивать, сколько времени осталось для завершения. Он позаботится об отслеживании прогресса за вас, так что вы сможете сосредоточиться на самом интересном — анализе данных!

Установка

Прежде чем мы углубимся в различные методы, предлагаемые tqdm.pandas, давайте быстро их установим. Вы можете установить tqdm.pandasс помощью pip:

pip install tqdm.pandas

После установки вы готовы ускорить рабочий процесс Pandas!

Метод 1: использование tqdm.pandasс apply()

Одна из наиболее распространенных операций в Pandas — применение функции к каждой строке или столбцу DataFrame. Используя tqdm.pandas, вы можете легко отслеживать ход выполнения операций apply(). Вот пример:

import pandas as pd
from tqdm import tqdm
tqdm.pandas()
df = pd.DataFrame(...)  # Your DataFrame
def process_row(row):
    # Your processing logic goes here
    return row
df.progress_apply(process_row, axis=1)

Метод 2: использование tqdm.pandasс groupby()

При работе с сгруппированными данными groupby()— мощная функция в Pandas. С помощью tqdm.pandasвы можете видеть ход выполнения ваших операций с groupby(). Взгляните на следующий фрагмент кода:

import pandas as pd
from tqdm import tqdm
tqdm.pandas()
df = pd.DataFrame(...)  # Your DataFrame
def process_group(group):
    # Your processing logic goes here
    return group
df.groupby('column').progress_apply(process_group)

Метод 3: использование tqdm.pandasс merge()

Объединение DataFrames — распространенная задача анализа данных, которая иногда может отнимать много времени. С помощью tqdm.pandasвы можете отслеживать ход выполнения ваших операций merge(). Вот пример:

import pandas as pd
from tqdm import tqdm
tqdm.pandas()
df1 = pd.DataFrame(...)  # Your first DataFrame
df2 = pd.DataFrame(...)  # Your second DataFrame
merged_df = df1.merge(df2, on='column').progress_apply(process_row, axis=1)

Метод 4: использование tqdm.pandasс read_csv()

Чтение больших файлов CSV может быть медленным, особенно при работе с миллионами строк. К счастью, tqdm.pandasможет помочь вам отслеживать ход ваших операций read_csv(). Посмотрите этот фрагмент кода:

import pandas as pd
from tqdm import tqdm
tqdm.pandas()
df = pd.read_csv('large_file.csv', chunksize=100000)
for chunk in tqdm(df):
    # Your processing logic goes here
    pass

Заключение

С tqdm.pandasвы можете попрощаться с разочарованием, связанным с ожиданием завершения операций Pandas. Теперь у вас есть возможность с легкостью отслеживать ход выполнения задач по обработке данных. Используете ли вы apply(), groupby(), merge()или читаете большие файлы CSV с помощью read_csv(), tqdm.pandasпоможет вам. Так зачем ждать? Установите tqdm.pandasсегодня и усовершенствуйте свои впечатления от Pandas!