Демистифицируя Pandas: Series против Dataframe – изучение основ

Pandas — это мощная библиотека манипулирования данными на Python, которая предоставляет две фундаментальные структуры данных: Series и DataFrame. Эти структуры необходимы для задач анализа и манипулирования данными. В этой статье мы погрузимся в мир серий и DataFrames, поймем их различия и рассмотрим различные методы, связанные с каждым из них.

Серия: Строительные блоки

Серия — это одномерный помеченный массив, который может содержать данные любого типа. Это похоже на столбец в электронной таблице или один столбец в таблице базы данных. Вот пример, иллюстрирующий создание серии:

import pandas as pd
# Creating a Series
s = pd.Series([10, 20, 30, 40, 50])
print(s)

Выход:

0    10
1    20
2    30
3    40
4    50
dtype: int64

В приведенном выше фрагменте кода мы импортируем библиотеку pandas, создаем серию sс пятью целочисленными значениями и распечатываем ее. В выходных данных отображается индекс (от 0 до 4) и соответствующие значения.

Методы серий:

  1. head()и tail():

    • head(n)возвращает первые nэлементов серии.
    • tail(n)возвращает последние nэлементов серии.
  2. values:

    Атрибут

    • valuesвозвращает базовый массив numpy серии.
  3. index:

    Атрибут

    • indexвозвращает индекс серии.
  4. describe():

    • describe()генерирует описательную статистику серии, включая количество, среднее значение, стандартное отклонение, минимум, квартили и максимум.

DataFrame: швейцарский армейский нож

DataFrame — это двумерная помеченная структура данных со столбцами потенциально разных типов данных. Его можно рассматривать как таблицу или электронную таблицу, где каждый столбец представляет серию. Давайте посмотрим, как создать DataFrame:

import pandas as pd
# Creating a DataFrame
data = {'Name': ['John', 'Alice', 'Bob'],
        'Age': [25, 30, 35],
        'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)
print(df)

Выход:

   Name  Age      City
0  John   25  New York
1 Alice   30     Paris
2   Bob   35    London

В приведенном выше примере мы создаем словарь с тремя ключами, представляющими имена столбцов и соответствующие списки в качестве значений. Затем мы передаем словарь функции pd.DataFrame(), которая создает DataFrame dfи печатает его.

Методы DataFrame:

  1. head()и tail():

    • head(n)возвращает первые nстроки DataFrame.
    • tail(n)возвращает последние nстрок DataFrame.
  2. shape:

    Атрибут

    • shapeвозвращает размеры (строки, столбцы) DataFrame.
  3. columns:

    Атрибут

    • columnsвозвращает имена столбцов DataFrame.
  4. info():

    • info()предоставляет краткую информацию о DataFrame, включая имена столбцов, типы данных и использование памяти.

В этой статье мы изучили основы Pandas Series и DataFrames. Серии представляют собой одномерные помеченные массивы, а DataFrames — это двумерные помеченные структуры данных со столбцами потенциально разных типов данных. Мы обсудили различные методы, связанные с каждой структурой данных, для выполнения общих операций. Овладев этими концепциями и методами, вы будете хорошо подготовлены к выполнению задач по анализу данных и манипулированию ими с помощью Pandas.