Вы устали ждать завершения операций Pandas? Вы смотрите на экран и задаетесь вопросом, работает ли ваш код или он просто завис? Если да, то вам повезло! В этой статье мы рассмотрим потрясающий инструмент под названием tqdm.pandas
, который радикально изменит ваш опыт работы с Pandas и упростит ваши задачи по анализу данных.
Что такое tqdm.pandas?
tqdm.pandas
— это расширение популярной библиотеки Python tqdm
(что по-арабски означает «taqaddum», что на английском означает «прогресс»). Он легко интегрируется с Pandas и предоставляет индикатор выполнения, который информирует вас о состоянии ваших задач по обработке данных. С tqdm.pandas
вам никогда не придется задаваться вопросом, работает ли ваш код, или оценивать, сколько времени осталось для завершения. Он позаботится об отслеживании прогресса за вас, так что вы сможете сосредоточиться на самом интересном — анализе данных!
Установка
Прежде чем мы углубимся в различные методы, предлагаемые tqdm.pandas
, давайте быстро их установим. Вы можете установить tqdm.pandas
с помощью pip:
pip install tqdm.pandas
После установки вы готовы ускорить рабочий процесс Pandas!
Метод 1: использование tqdm.pandas
с apply()
Одна из наиболее распространенных операций в Pandas — применение функции к каждой строке или столбцу DataFrame. Используя tqdm.pandas
, вы можете легко отслеживать ход выполнения операций apply()
. Вот пример:
import pandas as pd
from tqdm import tqdm
tqdm.pandas()
df = pd.DataFrame(...) # Your DataFrame
def process_row(row):
# Your processing logic goes here
return row
df.progress_apply(process_row, axis=1)
Метод 2: использование tqdm.pandas
с groupby()
При работе с сгруппированными данными groupby()
— мощная функция в Pandas. С помощью tqdm.pandas
вы можете видеть ход выполнения ваших операций с groupby()
. Взгляните на следующий фрагмент кода:
import pandas as pd
from tqdm import tqdm
tqdm.pandas()
df = pd.DataFrame(...) # Your DataFrame
def process_group(group):
# Your processing logic goes here
return group
df.groupby('column').progress_apply(process_group)
Метод 3: использование tqdm.pandas
с merge()
Объединение DataFrames — распространенная задача анализа данных, которая иногда может отнимать много времени. С помощью tqdm.pandas
вы можете отслеживать ход выполнения ваших операций merge()
. Вот пример:
import pandas as pd
from tqdm import tqdm
tqdm.pandas()
df1 = pd.DataFrame(...) # Your first DataFrame
df2 = pd.DataFrame(...) # Your second DataFrame
merged_df = df1.merge(df2, on='column').progress_apply(process_row, axis=1)
Метод 4: использование tqdm.pandas
с read_csv()
Чтение больших файлов CSV может быть медленным, особенно при работе с миллионами строк. К счастью, tqdm.pandas
может помочь вам отслеживать ход ваших операций read_csv()
. Посмотрите этот фрагмент кода:
import pandas as pd
from tqdm import tqdm
tqdm.pandas()
df = pd.read_csv('large_file.csv', chunksize=100000)
for chunk in tqdm(df):
# Your processing logic goes here
pass
Заключение
С tqdm.pandas
вы можете попрощаться с разочарованием, связанным с ожиданием завершения операций Pandas. Теперь у вас есть возможность с легкостью отслеживать ход выполнения задач по обработке данных. Используете ли вы apply()
, groupby()
, merge()
или читаете большие файлы CSV с помощью read_csv()
, tqdm.pandas
поможет вам. Так зачем ждать? Установите tqdm.pandas
сегодня и усовершенствуйте свои впечатления от Pandas!