Библиотека Pandas Python предоставляет мощные инструменты для работы со структурированными данными, в частности, через объект DataFrame. DataFrames позволяют эффективно обрабатывать табличные данные и манипулировать ими, что делает их фундаментальным компонентом анализа данных и рабочих процессов обработки данных. В этой статье мы рассмотрим различные методы работы с DataFrames и столбцами, сопровождаемые примерами кода, демонстрирующими их использование.
Содержание:
-
Создание DataFrame с нуля
-
Доступ к столбцам
-
Добавление новых столбцов
-
Переименование столбцов
-
Удаление столбцов
-
Изменение значений столбцов
-
Фильтрация данных на основе значений столбца
-
Сортировка столбцов
-
Агрегирование данных столбца
-
Слияние и соединение фреймов данных
-
Создание DataFrame с нуля.
Для начала давайте создадим DataFrame с нуля, используя словарь списков.
import pandas as pd
data = {'Name': ['John', 'Emily', 'Michael', 'Jessica'],
'Age': [25, 30, 35, 28],
'City': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)
print(df)
<ол старт="2">
Вы можете получить доступ к отдельным столбцам в DataFrame, используя квадратные скобки или оператор точки.
# Using square bracket notation
print(df['Name'])
# Using the dot operator
print(df.Age)
- Добавление новых столбцов.
Добавить новый столбец в DataFrame так же просто, как присвоить ему значение.
df['Salary'] = [50000, 60000, 70000, 55000]
print(df)
- Переименование столбцов.
Чтобы переименовать один или несколько столбцов, вы можете использовать методrename()
.
df = df.rename(columns={'Age': 'Years'})
print(df)
- Удаление столбцов.
Чтобы удалить один или несколько столбцов из DataFrame, используйте методdrop()
.
df = df.drop(columns=['City'])
print(df)
- Изменение значений столбца.
Вы можете изменить значения в столбце с помощью присваивания.
df.loc[df['Name'] == 'John', 'Age'] = 26
print(df)
- Фильтрация данных на основе значений столбца.
Чтобы фильтровать строки на основе значений столбца, используйте условные операторы.
filtered_df = df[df['Age'] > 30]
print(filtered_df)
- Сортировка столбцов.
Сортировка DataFrame на основе значений столбца с помощью методаsort_values()
.
sorted_df = df.sort_values('Age', ascending=False)
print(sorted_df)
- Агрегирование данных столбца.
Вычисление различных статистических данных и агрегирование данных столбца с помощью таких методов, какmean()
,sum()
,min()
,16и т. д.
print(df['Salary'].mean())
print(df['Age'].max())
- Объединение и объединение фреймов данных.
Объедините несколько фреймов данных, используя такие методы, какmerge()
иjoin()
.
df2 = pd.DataFrame({'Name': ['John', 'Emily'],
'Department': ['HR', 'Finance']})
merged_df = pd.merge(df, df2, on='Name')
print(merged_df)
Библиотека Python Pandas предоставляет богатый набор методов для работы с DataFrames и столбцами. В этой статье мы рассмотрели различные важные методы, включая создание DataFrames, доступ к столбцам, добавление новых столбцов, изменение и фильтрацию значений столбцов, сортировку столбцов, агрегирование данных и слияние/присоединение DataFrames. Эти методы составляют основу для эффективного манипулирования и анализа данных в Python.
Ознакомившись с этими методами, вы будете хорошо подготовлены к решению различных задач, связанных с данными, и сможете максимально эффективно использовать возможности Pandas.
Не забывайте экспериментировать с предоставленными примерами и адаптировать их к своим конкретным случаям использования. Приятного кодирования!