Полное руководство по фреймам данных и столбцам Python: изучение основных методов и примеров

Библиотека Pandas Python предоставляет мощные инструменты для работы со структурированными данными, в частности, через объект DataFrame. DataFrames позволяют эффективно обрабатывать табличные данные и манипулировать ими, что делает их фундаментальным компонентом анализа данных и рабочих процессов обработки данных. В этой статье мы рассмотрим различные методы работы с DataFrames и столбцами, сопровождаемые примерами кода, демонстрирующими их использование.

Содержание:

  1. Создание DataFrame с нуля

  2. Доступ к столбцам

  3. Добавление новых столбцов

  4. Переименование столбцов

  5. Удаление столбцов

  6. Изменение значений столбцов

  7. Фильтрация данных на основе значений столбца

  8. Сортировка столбцов

  9. Агрегирование данных столбца

  10. Слияние и соединение фреймов данных

  11. Создание DataFrame с нуля.
    Для начала давайте создадим DataFrame с нуля, используя словарь списков.

import pandas as pd
data = {'Name': ['John', 'Emily', 'Michael', 'Jessica'],
        'Age': [25, 30, 35, 28],
        'City': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)
print(df)

<ол старт="2">

  • Доступ к столбцам.
    Вы можете получить доступ к отдельным столбцам в DataFrame, используя квадратные скобки или оператор точки.
  • # Using square bracket notation
    print(df['Name'])
    # Using the dot operator
    print(df.Age)
    1. Добавление новых столбцов.
      Добавить новый столбец в DataFrame так же просто, как присвоить ему значение.
    df['Salary'] = [50000, 60000, 70000, 55000]
    print(df)
    1. Переименование столбцов.
      Чтобы переименовать один или несколько столбцов, вы можете использовать метод rename().
    df = df.rename(columns={'Age': 'Years'})
    print(df)
    1. Удаление столбцов.
      Чтобы удалить один или несколько столбцов из DataFrame, используйте метод drop().
    df = df.drop(columns=['City'])
    print(df)
    1. Изменение значений столбца.
      Вы можете изменить значения в столбце с помощью присваивания.
    df.loc[df['Name'] == 'John', 'Age'] = 26
    print(df)
    1. Фильтрация данных на основе значений столбца.
      Чтобы фильтровать строки на основе значений столбца, используйте условные операторы.
    filtered_df = df[df['Age'] > 30]
    print(filtered_df)
    1. Сортировка столбцов.
      Сортировка DataFrame на основе значений столбца с помощью метода sort_values().
    sorted_df = df.sort_values('Age', ascending=False)
    print(sorted_df)
    1. Агрегирование данных столбца.
      Вычисление различных статистических данных и агрегирование данных столбца с помощью таких методов, как mean(), sum(), min(), 16и т. д.
    print(df['Salary'].mean())
    print(df['Age'].max())
    1. Объединение и объединение фреймов данных.
      Объедините несколько фреймов данных, используя такие методы, как merge()и join().
    df2 = pd.DataFrame({'Name': ['John', 'Emily'],
                        'Department': ['HR', 'Finance']})
    merged_df = pd.merge(df, df2, on='Name')
    print(merged_df)

    Библиотека Python Pandas предоставляет богатый набор методов для работы с DataFrames и столбцами. В этой статье мы рассмотрели различные важные методы, включая создание DataFrames, доступ к столбцам, добавление новых столбцов, изменение и фильтрацию значений столбцов, сортировку столбцов, агрегирование данных и слияние/присоединение DataFrames. Эти методы составляют основу для эффективного манипулирования и анализа данных в Python.

    Ознакомившись с этими методами, вы будете хорошо подготовлены к решению различных задач, связанных с данными, и сможете максимально эффективно использовать возможности Pandas.

    Не забывайте экспериментировать с предоставленными примерами и адаптировать их к своим конкретным случаям использования. Приятного кодирования!