Освоение извлечения данных с помощью Pandas: раскрытие магии извлечения значений

В обширной области анализа и обработки данных извлечение значений из наборов данных является фундаментальной задачей. Pandas, мощная библиотека Python, предоставляет широкий спектр методов для простого и гибкого извлечения значений. В этой статье блога мы углубимся в несколько методов извлечения значений с помощью pandas, сопровождая их разговорными объяснениями и практическими примерами кода.

  1. Индексирование и нарезка.
    Один из самых простых способов извлечения значений из DataFrame или Series pandas — это индексация и нарезка. Вы можете получить доступ к определенным строкам, столбцам или элементам, используя квадратные скобки [].

Пример 1. Извлечение одного столбца из DataFrame

import pandas as pd
data = {'Name': ['John', 'Emily', 'Ryan'],
        'Age': [25, 30, 35],
        'City': ['New York', 'London', 'Sydney']}
df = pd.DataFrame(data)
name_column = df['Name']
print(name_column)

Пример 2. Извлечение подмножества строк с помощью срезов

subset = df[1:3]
print(subset)
  1. Фильтрация по условиям.
    Еще один мощный метод — извлечение значений на основе определенных условий с использованием логического индексирования. Это позволяет фильтровать строки, соответствующие определенным критериям.

Пример 3. Извлечение строк по условию

filtered_df = df[df['Age'] > 28]
print(filtered_df)
  1. Использование методов извлечения значений.
    Pandas предоставляет различные методы, упрощающие извлечение значений из DataFrames и рядов. Вот несколько примечательных из них:

a) locи iloc: эти методы обеспечивают индексацию на основе меток и целых чисел соответственно.

Пример 4. Извлечение одного элемента с помощью loc

element = df.loc[1, 'City']
print(element)

b) atи iat: эти методы аналогичны locи iloc, но они обеспечивают более быструю скалярное извлечение отдельных значений.

Пример 5. Извлечение одного значения с помощью at

value = df.at[1, 'Age']
print(value)
  1. Извлечение уникальных значений.
    Чтобы извлечь уникальные значения из столбца, вы можете использовать метод unique(). Он возвращает массив numpy, содержащий различные значения.

Пример 6. Извлечение уникальных значений из столбца

unique_cities = df['City'].unique()
print(unique_cities)

В этой статье мы рассмотрели несколько методов извлечения значений в pandas, включая индексацию, нарезку, фильтрацию с условиями и использование специализированных методов, таких как loc, iloc, at, iatи unique(). Освоив эти методы, вы сможете с легкостью раскрыть весь потенциал панд для извлечения данных и манипулирования ими.