-
Импорт библиотек.
Прежде чем мы приступим к манипулированию данными, давайте удостоверимся, что у нас есть необходимые инструменты. В основном мы будем использовать две популярные библиотеки: Pandas и NumPy.import pandas as pd import numpy as np -
Загрузка данных.
Первый шаг — загрузить данные в Python. Будь то CSV-файл, электронная таблица Excel или база данных, Pandas предоставит вам всю необходимую информацию. Предположим, у нас есть файл CSV с именем «data.csv».df = pd.read_csv("data.csv") -
Изучение данных.
Всегда полезно ознакомиться с данными, прежде чем приступать к манипуляциям. Вот несколько способов изучения вашего набора данных:df.head() # Display the first few rows df.info() # Get a summary of the data types and missing values df.describe() # Generate descriptive statistics -
Выбор столбцов.
Часто для анализа вам понадобится только подмножество столбцов. Вот как можно выбрать определенные столбцы:df["column_name"] # Select a single column df[["column1", "column2"]] # Select multiple columns -
Фильтрация строк.
Чтобы сосредоточиться на конкретных строках, соответствующих определенным условиям, вы можете использовать методы фильтрации:df[df["column"] > 10] # Filter rows where the column value is greater than 10 df[(df["column1"] > 5) & (df["column2"] == "value")] # Filter rows with multiple conditions -
Обработка отсутствующих значений.
Обработка отсутствующих данных — важнейшая часть манипулирования данными. Pandas предоставляет методы для эффективной обработки пропущенных значений:df.dropna() # Drop rows with missing values df.fillna(value) # Fill missing values with a specific value -
Группировка и агрегирование данных.
Группировка данных и выполнение агрегирования — распространенная задача при манипулировании данными. Вот как этого можно добиться:df.groupby("column").mean() # Group by a column and calculate the mean df.groupby(["column1", "column2"]).sum() # Group by multiple columns and calculate the sum -
Объединение данных.
Объединить несколько наборов данных можно с помощью функции слияния. Допустим, у нас есть два фрейма данных: df1 и df2:merged_df = pd.merge(df1, df2, on="common_column") -
Сортировка данных.
Чтобы отсортировать данные по определенным столбцам, вы можете использовать метод sort_values:df.sort_values("column", ascending=False) # Sort in descending order -
Сохранение данных.
После выполнения задач по манипулированию данными вы можете сохранить измененные данные:df.to_csv("new_data.csv", index=False) # Save the dataframe as a CSV file
Поздравляем! Вы изучили некоторые важные методы манипулирования данными в Python. А теперь идите и обработайте свои данные как профессионал!