В мире анализа данных понимание распределения значений в наборе данных имеет решающее значение. Одним из полезных инструментов в библиотеке Pandas Python является функция value_counts(), которая обеспечивает быстрый и простой способ подсчета появления уникальных значений в столбце. В этой статье блога мы рассмотрим различные методы использования value_counts()в pandas для получения ценной информации и изучения данных.
Метод 1: базовое использование value_counts()
Самый простой способ использовать value_counts()— вызвать его в серии pandas. Например, если у вас есть DataFrame с именем dfи вы хотите подсчитать количество вхождений значений в столбце с именем «Категория», вы можете использовать следующий код:
df['Category'].value_counts()
Это вернет новый объект Series с уникальными значениями из столбца «Категория» в качестве индекса и соответствующими счетчиками в качестве значений.
Метод 2: сортировка результатов
По умолчанию value_counts()возвращает значения в порядке убывания. Однако вы можете отсортировать результаты по возрастанию, установив для параметра ascendingзначение True. Вот пример:
df['Category'].value_counts(ascending=True)
Метод 3: нормализация результатов
Иногда полезно знать относительную частоту значений, а не их необработанные значения. Этого можно добиться, установив для параметра normalizeзначение Trueв функции value_counts(). Это вернет пропорции вместо количества. Вот пример:
df['Category'].value_counts(normalize=True)
Метод 4. Ограничение количества результатов
Если вас интересуют только верхние nнаиболее часто встречающиеся значения, вы можете использовать метод nlargest()в сочетании с value_counts(). Вот пример, показывающий 5 самых распространенных категорий:
df['Category'].value_counts().nlargest(5)
Метод 5: обработка пропущенных значений
По умолчанию value_counts()исключает из результатов пропущенные значения (NaN). Если вы хотите включить их, вы можете установить для параметра dropnaзначение False. Вот пример:
df['Category'].value_counts(dropna=False)
Метод 6. Работа с несколькими столбцами
В некоторых случаях вам может потребоваться подсчитывать значения в нескольких столбцах одновременно. Для этого вы можете использовать функцию apply()в сочетании с value_counts(). Вот пример, в котором подсчитывается появление уникальных комбинаций значений из двух столбцов: «Категория» и «Подкатегория»:
df[['Category', 'Subcategory']].apply(lambda x: x.value_counts()).fillna(0)
В этой статье мы рассмотрели несколько методов использования функции value_counts()в pandas. Мы научились подсчитывать и анализировать появление уникальных значений в наборе данных, сортировать результаты, нормализовать подсчеты, ограничивать количество результатов, обрабатывать пропущенные значения и работать с несколькими столбцами. Используя эти методы, вы сможете получить ценную информацию и лучше понять распределение ваших данных.
Освоив функцию value_counts()в pandas, вы сможете стать более опытным аналитиком данных и раскрыть весь потенциал своих наборов данных.