Pandas, популярная библиотека манипулирования данными на Python, предлагает широкий спектр методов для эффективной обработки и анализа наборов данных. Одним из таких мощных методов является «выборка», которая позволяет извлечь случайное подмножество данных из DataFrame. В этой статье блога мы рассмотрим различные методы и примеры кода для использования примеров функций сопоставления в Pandas. Итак, давайте углубимся и узнаем, как использовать потенциал выборочного картографирования!
- Случайная выборка.
Самым основным применением метода выборки является выполнение случайной выборки. Вы можете указать количество строк, которые хотите извлечь случайным образом, используя параметр «n». Например:
import pandas as pd
df = pd.read_csv('data.csv')
sampled_data = df.sample(n=100) # Extract 100 random rows
- Стратифицированная выборка.
Иногда вам может потребоваться убедиться, что ваша выборка пропорционально представляет различные группы в наборе данных. Pandas позволяет добиться этого посредством стратифицированной выборки. Вы можете использовать параметр «frac», чтобы указать размер выборки как часть исходного набора данных, и параметр «стратификация», чтобы сгруппировать данные на основе определенного столбца. Вот пример:
stratified_sample = df.sample(frac=0.1, stratify=df['category'])
- Взвешенная выборка.
В некоторых сценариях может потребоваться присвоить разный вес отдельным строкам во время выборки. Это полезно, если вы хотите придать большее значение конкретным записям. Этого можно добиться, предоставив собственный столбец веса с помощью параметра «веса». Вот пример:
weighted_sample = df.sample(n=100, weights=df['importance'])
- Выборка с заменой.
По умолчанию сопоставление выборки в Pandas выполняет выборку без замены, то есть одну и ту же строку нельзя выбрать более одного раза. Однако вы можете включить выборку с заменой, установив для параметра replace значение True. Вот пример:
sample_with_replacement = df.sample(n=100, replace=True)
- Случайное начальное значение для воспроизводимости:
Чтобы обеспечить воспроизводимость результатов, вы можете установить случайное начальное значение с помощью параметра «random_state». Это позволяет вам получать один и тот же образец каждый раз, когда вы запускаете код. Например:
reproducible_sample = df.sample(n=100, random_state=42)
В этой статье мы рассмотрели различные методы выполнения выборочного сопоставления в Pandas. Мы узнали о случайной выборке, стратифицированной выборке, взвешенной выборке, выборке с заменой и обеспечении воспроизводимости с использованием случайного начального числа. Используя эти методы, вы можете эффективно анализировать наборы данных и манипулировать ими, работая с репрезентативными подмножествами ваших данных. Так что вперед и раскройте возможности выборочного картографирования в Pandas для ваших нужд анализа данных!