Изучение манипулирования данными в Python: подробное руководство с примерами кода

Манипулирование данными — важнейший аспект анализа данных, который играет важную роль в извлечении ценной информации из необработанных данных. Python с его мощными библиотеками, такими как Pandas, предоставляет широкий спектр методов для эффективной обработки и преобразования данных. В этой статье мы рассмотрим различные методы управления данными с помощью Python, сопровождаемые примерами кода.

  1. Создание DataFrame:
    Для начала давайте создадим образец DataFrame на Python с использованием Pandas:
import pandas as pd
# Create a DataFrame
data = {'Name': ['John', 'Alice', 'Bob'],
        'Age': [25, 30, 35],
        'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
print(df)

Выход:

   Name  Age       City
0  John   25   New York
1 Alice   30     London
2   Bob   35      Paris
  1. Чтение данных из внешних источников.
    Python позволяет считывать данные из различных источников, таких как CSV, Excel, базы данных SQL и т. д. Вот пример чтения файла CSV в DataFrame:
import pandas as pd
# Read CSV file into a DataFrame
df = pd.read_csv('data.csv')
print(df.head())
  1. Выбор столбцов.
    Чтобы извлечь определенные столбцы из DataFrame, вы можете использовать оператор индексации или методы locи iloc. Вот пример:
# Selecting columns using indexing operator
name_column = df['Name']
print(name_column)
# Selecting columns using loc method
age_city_columns = df.loc[:, ['Age', 'City']]
print(age_city_columns)
  1. Фильтрация строк.
    Вы можете фильтровать строки на основе определенных условий, используя логическое индексирование. Вот пример:
# Filter rows based on age greater than 25
filtered_df = df[df['Age'] > 25]
print(filtered_df)
  1. Применение функций к столбцам.
    Python позволяет применять пользовательские или встроенные функции к столбцам DataFrame. Вот пример применения функции upper()к столбцу «Имя»:
# Applying the upper() function to the 'Name' column
df['Name'] = df['Name'].apply(str.upper)
print(df)
  1. Сортировка данных.
    Вы можете сортировать DataFrame по одному или нескольким столбцам, используя метод sort_values(). Вот пример:
# Sort the DataFrame by 'Age' column in descending order
sorted_df = df.sort_values(by='Age', ascending=False)
print(sorted_df)
  1. Группировка и агрегирование данных.
    Python позволяет группировать данные на основе одного или нескольких столбцов и выполнять агрегирование. Вот пример:
# Grouping by 'City' and calculating the average age
grouped_df = df.groupby('City')['Age'].mean()
print(grouped_df)

Python предоставляет богатый набор методов для манипулирования данными, позволяющий выполнять широкий спектр операций с DataFrames. В этой статье мы рассмотрели различные методы, включая создание DataFrames, чтение данных из внешних источников, выбор столбцов, фильтрацию строк, применение функций, сортировку данных и группировку/агрегирование данных. Освоение этих методов позволит вам эффективно манипулировать данными и анализировать их с помощью Python.

Не забудьте поэкспериментировать с этими методами и изучить официальную документацию, чтобы узнать о более продвинутых методах и функциях.