Изучение различных способов получения первых N строк в кадре данных Pandas

Для аналитиков данных или ученых работа с большими наборами данных с использованием библиотеки Pandas на Python является обычной задачей. Часто вам может потребоваться извлечь только первые несколько строк DataFrame для целей анализа или визуализации. В этой статье блога мы рассмотрим несколько методов выполнения этой задачи, попутно предоставляя разговорные объяснения и примеры кода.

Метод 1: использование функции .head()
Самый простой и понятный метод получения первых N строк кадра данных Pandas — использование функции .head(). Эта функция возвращает указанное количество строк от начала DataFrame.

# Example usage
n = 5  # Number of rows to retrieve
first_n_rows = df.head(n)
print(first_n_rows)

Метод 2. Индексирование с помощью оператора среза [:]
Подобно работе со списками Python вы можете использовать оператор среза [:]для извлечения подмножества строк из DataFrame. Указав диапазон строк как [:n], вы можете получить первые N строк.

# Example usage
n = 5  # Number of rows to retrieve
first_n_rows = df[:n]
print(first_n_rows)

Метод 3: использование функции .iloc[]
Функция .iloc[]позволяет выполнять индексацию на основе целых чисел, позволяя выбирать строки на основе их положения. Передав диапазон индексов как df.iloc[:n], вы можете получить первые N строк DataFrame.

# Example usage
n = 5  # Number of rows to retrieve
first_n_rows = df.iloc[:n]
print(first_n_rows)

Метод 4: Фильтрация с помощью метода .query(). Объединив ее с функцией .head(), вы можете фильтровать строки по условию и получать нужное подмножество.

# Example usage
n = 5  # Number of rows to retrieve
condition = "column_name > 10"  # Replace with your desired condition
first_n_filtered_rows = df.query(condition).head(n)
print(first_n_filtered_rows)

Метод 5: использование .nsmallest()с .index
Если в вашем DataFrame есть столбец с числовыми значениями, вы можете использовать функцию .nsmallest()чтобы получить N наименьших строк на основе определенного столбца. Объединив его с .index, вы можете получить первые N строк.

# Example usage
n = 5  # Number of rows to retrieve
column_name = "numeric_column"  # Replace with your desired column name
first_n_smallest_rows = df.nsmallest(n, column_name)
print(first_n_smallest_rows)

В этой статье мы рассмотрели несколько подходов к извлечению первых N строк из DataFrame Pandas. Эти методы обеспечивают гибкость с точки зрения простоты, индексации, фильтрации и сортировки на основе значений конкретных столбцов. Используя эти методы, вы можете эффективно анализировать и визуализировать исходный набор данных, отвечающий вашим требованиям.