Раскрытие возможностей выборочного картографирования в Pandas: подробное руководство

Pandas, популярная библиотека манипулирования данными на Python, предлагает широкий спектр методов для эффективной обработки и анализа наборов данных. Одним из таких мощных методов является «выборка», которая позволяет извлечь случайное подмножество данных из DataFrame. В этой статье блога мы рассмотрим различные методы и примеры кода для использования примеров функций сопоставления в Pandas. Итак, давайте углубимся и узнаем, как использовать потенциал выборочного картографирования!

  1. Случайная выборка.
    Самым основным применением метода выборки является выполнение случайной выборки. Вы можете указать количество строк, которые хотите извлечь случайным образом, используя параметр «n». Например:
import pandas as pd
df = pd.read_csv('data.csv')
sampled_data = df.sample(n=100)  # Extract 100 random rows
  1. Стратифицированная выборка.
    Иногда вам может потребоваться убедиться, что ваша выборка пропорционально представляет различные группы в наборе данных. Pandas позволяет добиться этого посредством стратифицированной выборки. Вы можете использовать параметр «frac», чтобы указать размер выборки как часть исходного набора данных, и параметр «стратификация», чтобы сгруппировать данные на основе определенного столбца. Вот пример:
stratified_sample = df.sample(frac=0.1, stratify=df['category'])
  1. Взвешенная выборка.
    В некоторых сценариях может потребоваться присвоить разный вес отдельным строкам во время выборки. Это полезно, если вы хотите придать большее значение конкретным записям. Этого можно добиться, предоставив собственный столбец веса с помощью параметра «веса». Вот пример:
weighted_sample = df.sample(n=100, weights=df['importance'])
  1. Выборка с заменой.
    По умолчанию сопоставление выборки в Pandas выполняет выборку без замены, то есть одну и ту же строку нельзя выбрать более одного раза. Однако вы можете включить выборку с заменой, установив для параметра replace значение True. Вот пример:
sample_with_replacement = df.sample(n=100, replace=True)
  1. Случайное начальное значение для воспроизводимости:
    Чтобы обеспечить воспроизводимость результатов, вы можете установить случайное начальное значение с помощью параметра «random_state». Это позволяет вам получать один и тот же образец каждый раз, когда вы запускаете код. Например:
reproducible_sample = df.sample(n=100, random_state=42)

В этой статье мы рассмотрели различные методы выполнения выборочного сопоставления в Pandas. Мы узнали о случайной выборке, стратифицированной выборке, взвешенной выборке, выборке с заменой и обеспечении воспроизводимости с использованием случайного начального числа. Используя эти методы, вы можете эффективно анализировать наборы данных и манипулировать ими, работая с репрезентативными подмножествами ваших данных. Так что вперед и раскройте возможности выборочного картографирования в Pandas для ваших нужд анализа данных!