Pandas — мощная библиотека Python, широко используемая для анализа и обработки данных. Независимо от того, являетесь ли вы ученым, аналитиком данных или энтузиастом Python, освоение Pandas необходимо для эффективной обработки и анализа данных. В этой статье мы углубимся в некоторые из наиболее часто используемых методов Pandas, приведем примеры кода и разговорные объяснения, которые помогут вам повысить уровень ваших навыков манипулирования данными.
-
Создание DataFrame:
- Создание пустого DataFrame:
df = pd.DataFrame() - Создание DataFrame из словаря:
df = pd.DataFrame({'column1': [value1, value2], 'column2': [value3, value4]}) - Создание DataFrame из файла CSV:
df = pd.read_csv('file.csv')
- Создание пустого DataFrame:
-
Проверка данных:
- Отображение первых нескольких строк:
df.head() - Отображение последних нескольких строк:
df.tail() - Обзор DataFrame:
df.info() - Проверка сводной статистики:
df.describe()
- Отображение первых нескольких строк:
-
Выбор данных:
- Выбор одного столбца:
df['column']илиdf.column - Выбор нескольких столбцов:
df[['column1', 'column2']] - Выбор строк по условию:
df[df['column'] > value] - Выбор строк по нескольким условиям:
df[(df['column1'] > value1) & (df['column2'] < value2)]
- Выбор одного столбца:
-
Очистка данных:
- Обработка пропущенных значений:
df.dropna()(удаляет строки с пропущенными значениями) илиdf.fillna(value)(заменяет пропущенные значения определенным значением) - Удаление повторяющихся строк:
df.drop_duplicates() - Переименование столбцов:
df.rename(columns={'old_name': 'new_name'}) - Изменение типов данных:
df['column'] = df['column'].astype(new_type)
- Обработка пропущенных значений:
-
Преобразование данных:
- Применение функции к столбцу:
df['column'] = df['column'].apply(function) - Сортировка DataFrame:
df.sort_values('column') - Группировка данных и расчет агрегатов:
df.groupby('column').agg(functions) - Создание новых столбцов на основе существующих:
df['new_column'] = df['column1'] + df['column2']
- Применение функции к столбцу:
-
Визуализация данных:
- Построение линейной диаграммы:
df.plot(x='column1', y='column2', kind='line') - Создание гистограммы:
df.plot(x='column1', y='column2', kind='bar') - Создание гистограммы:
df['column'].plot(kind='hist') - Создание точечной диаграммы:
df.plot(x='column1', y='column2', kind='scatter')
- Построение линейной диаграммы:
Pandas предоставляет широкий спектр методов манипулирования данными, позволяющих эффективно очищать, преобразовывать и анализировать данные. Используя возможности Pandas, вы можете извлекать ценную информацию и принимать решения на основе данных. Не забывайте практиковаться и экспериментировать с различными методами, чтобы научиться использовать Pandas для задач по манипулированию данными.