Как получить первые n строк в Pandas на основе процентов: подробное руководство

При работе с большими наборами данных в Pandas часто необходимо извлечь только часть данных на основе определенного процента. Независимо от того, анализируете ли вы большой набор данных или создаете выборку для тестирования, знание того, как извлечь первые n строк на основе процентов, может оказаться ценным навыком. В этой статье мы рассмотрим несколько методов выполнения этой задачи с помощью Pandas, попутно предоставляя примеры кода. Итак, давайте углубимся и научимся эффективно извлекать подмножество данных, используя проценты!

Метод 1: использование метода head.
Самый простой способ извлечь первые n строк на основе процентного соотношения — вычислить желаемое количество строк и использовать headметод. Вот пример:

import pandas as pd
# Read your dataset into a DataFrame
df = pd.read_csv('your_dataset.csv')
# Calculate the desired number of rows based on a percentage
percentage = 0.25  # 25%
num_rows = int(len(df) * percentage)
# Extract the first n rows based on the percentage
subset = df.head(num_rows)
# Display the subset
print(subset)

Метод 2: использование метода sample.
Другой подход — использование метода sampleв Pandas, который позволяет случайным образом выбирать определенную долю или количество ряды. Установив для параметра fracжелаемое процентное значение, вы можете легко извлечь первые n строк. Вот пример:

import pandas as pd
# Read your dataset into a DataFrame
df = pd.read_csv('your_dataset.csv')
# Extract the first n rows based on the percentage
percentage = 0.25  # 25%
subset = df.sample(frac=percentage)
# Display the subset
print(subset)

Метод 3. Использование срезов с индексатором ilociloc
Pandas позволяет получать доступ к строкам и столбцам по целочисленной позиции. Комбинируя нарезку с рассчитанным количеством строк в процентах, вы можете легко извлечь нужное подмножество. Вот пример:

import pandas as pd
# Read your dataset into a DataFrame
df = pd.read_csv('your_dataset.csv')
# Calculate the desired number of rows based on a percentage
percentage = 0.25  # 25%
num_rows = int(len(df) * percentage)
# Extract the first n rows based on the percentage using iloc
subset = df.iloc[:num_rows]
# Display the subset
print(subset)

В этой статье мы рассмотрели три различных метода извлечения первых n строк на основе процентов в Pandas. Используя метод head, метод sampleили нарезку с помощью iloc, вы можете легко извлечь подмножества данных в соответствии с желаемым процентом. У каждого метода есть свои преимущества, поэтому выберите тот, который лучше всего соответствует вашим потребностям. Теперь у вас есть инструменты для эффективного извлечения подмножеств данных из больших наборов данных с помощью Pandas!