Pandas — это мощная библиотека манипулирования данными на Python, которая предоставляет две фундаментальные структуры данных: Series и DataFrame. Эти структуры необходимы для задач анализа и манипулирования данными. В этой статье мы погрузимся в мир серий и DataFrames, поймем их различия и рассмотрим различные методы, связанные с каждым из них.
Серия: Строительные блоки
Серия — это одномерный помеченный массив, который может содержать данные любого типа. Это похоже на столбец в электронной таблице или один столбец в таблице базы данных. Вот пример, иллюстрирующий создание серии:
import pandas as pd
# Creating a Series
s = pd.Series([10, 20, 30, 40, 50])
print(s)
Выход:
0 10
1 20
2 30
3 40
4 50
dtype: int64
В приведенном выше фрагменте кода мы импортируем библиотеку pandas, создаем серию sс пятью целочисленными значениями и распечатываем ее. В выходных данных отображается индекс (от 0 до 4) и соответствующие значения.
Методы серий:
-
head()иtail():head(n)возвращает первыеnэлементов серии.tail(n)возвращает последниеnэлементов серии.
-
values:Атрибут
valuesвозвращает базовый массив numpy серии.
-
index:Атрибут
indexвозвращает индекс серии.
-
describe():describe()генерирует описательную статистику серии, включая количество, среднее значение, стандартное отклонение, минимум, квартили и максимум.
DataFrame: швейцарский армейский нож
DataFrame — это двумерная помеченная структура данных со столбцами потенциально разных типов данных. Его можно рассматривать как таблицу или электронную таблицу, где каждый столбец представляет серию. Давайте посмотрим, как создать DataFrame:
import pandas as pd
# Creating a DataFrame
data = {'Name': ['John', 'Alice', 'Bob'],
'Age': [25, 30, 35],
'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)
print(df)
Выход:
Name Age City
0 John 25 New York
1 Alice 30 Paris
2 Bob 35 London
В приведенном выше примере мы создаем словарь с тремя ключами, представляющими имена столбцов и соответствующие списки в качестве значений. Затем мы передаем словарь функции pd.DataFrame(), которая создает DataFrame dfи печатает его.
Методы DataFrame:
-
head()иtail():head(n)возвращает первыеnстроки DataFrame.tail(n)возвращает последниеnстрок DataFrame.
-
shape:Атрибут
shapeвозвращает размеры (строки, столбцы) DataFrame.
-
columns:Атрибут
columnsвозвращает имена столбцов DataFrame.
-
info():info()предоставляет краткую информацию о DataFrame, включая имена столбцов, типы данных и использование памяти.
В этой статье мы изучили основы Pandas Series и DataFrames. Серии представляют собой одномерные помеченные массивы, а DataFrames — это двумерные помеченные структуры данных со столбцами потенциально разных типов данных. Мы обсудили различные методы, связанные с каждой структурой данных, для выполнения общих операций. Овладев этими концепциями и методами, вы будете хорошо подготовлены к выполнению задач по анализу данных и манипулированию ими с помощью Pandas.