Исследование данных с помощью Pandas: подсчет и анализ значений в вашем наборе данных

В мире анализа данных понимание распределения значений в наборе данных имеет решающее значение. Одним из полезных инструментов в библиотеке Pandas Python является функция value_counts(), которая обеспечивает быстрый и простой способ подсчета появления уникальных значений в столбце. В этой статье блога мы рассмотрим различные методы использования value_counts()в pandas для получения ценной информации и изучения данных.

Метод 1: базовое использование value_counts()

Самый простой способ использовать value_counts()— вызвать его в серии pandas. Например, если у вас есть DataFrame с именем dfи вы хотите подсчитать количество вхождений значений в столбце с именем «Категория», вы можете использовать следующий код:

df['Category'].value_counts()

Это вернет новый объект Series с уникальными значениями из столбца «Категория» в качестве индекса и соответствующими счетчиками в качестве значений.

Метод 2: сортировка результатов

По умолчанию value_counts()возвращает значения в порядке убывания. Однако вы можете отсортировать результаты по возрастанию, установив для параметра ascendingзначение True. Вот пример:

df['Category'].value_counts(ascending=True)

Метод 3: нормализация результатов

Иногда полезно знать относительную частоту значений, а не их необработанные значения. Этого можно добиться, установив для параметра normalizeзначение Trueв функции value_counts(). Это вернет пропорции вместо количества. Вот пример:

df['Category'].value_counts(normalize=True)

Метод 4. Ограничение количества результатов

Если вас интересуют только верхние nнаиболее часто встречающиеся значения, вы можете использовать метод nlargest()в сочетании с value_counts(). Вот пример, показывающий 5 самых распространенных категорий:

df['Category'].value_counts().nlargest(5)

Метод 5: обработка пропущенных значений

По умолчанию value_counts()исключает из результатов пропущенные значения (NaN). Если вы хотите включить их, вы можете установить для параметра dropnaзначение False. Вот пример:

df['Category'].value_counts(dropna=False)

Метод 6. Работа с несколькими столбцами

В некоторых случаях вам может потребоваться подсчитывать значения в нескольких столбцах одновременно. Для этого вы можете использовать функцию apply()в сочетании с value_counts(). Вот пример, в котором подсчитывается появление уникальных комбинаций значений из двух столбцов: «Категория» и «Подкатегория»:

df[['Category', 'Subcategory']].apply(lambda x: x.value_counts()).fillna(0)

В этой статье мы рассмотрели несколько методов использования функции value_counts()в pandas. Мы научились подсчитывать и анализировать появление уникальных значений в наборе данных, сортировать результаты, нормализовать подсчеты, ограничивать количество результатов, обрабатывать пропущенные значения и работать с несколькими столбцами. Используя эти методы, вы сможете получить ценную информацию и лучше понять распределение ваших данных.

Освоив функцию value_counts()в pandas, вы сможете стать более опытным аналитиком данных и раскрыть весь потенциал своих наборов данных.