“category_encoders” — это английский термин, обозначающий библиотеку Python, которая предоставляет различные методы кодирования категориальных переменных в задачах машинного обучения и анализа данных. Он предлагает ряд методов преобразования категориальных функций в числовые представления, которые могут быть легко использованы алгоритмами машинного обучения. Вот несколько популярных методов, предоставляемых библиотекой “category_encoders”:
-
Порядковый кодировщик. Этот метод присваивает уникальное целочисленное значение каждой категории, сохраняя порядковые отношения между ними.
-
One-Hot Encoder: он создает двоичные столбцы для каждой категории, где каждый столбец представляет наличие или отсутствие категории.
-
Двоичный кодировщик. Этот метод преобразует каждую категорию в двоичный код, в результате чего получается меньше столбцов по сравнению с горячим кодированием.
-
Кодер подсчета: он заменяет каждую категорию количеством ее вхождений в наборе данных, что может быть полезно для категориальных функций с высокой мощностью.
-
Целевой кодировщик: этот метод заменяет каждую категорию средним целевым значением соответствующей категории, что является хорошим выбором для задач классификации.
-
CatBoost Encoder: сочетает в себе аспекты целевого кодирования и горячего кодирования, используя целевую статистику и категориальную вероятность.
-
Кодер Джеймса-Стейна: этот метод объединяет информацию из целевого кодирования и глобального среднего значения для повышения точности.
-
Кодер Хелмерта: он заменяет каждую категорию разницей между средним значением целевой переменной для этой категории и общим средним значением.
-
Кодер с пропуском одного значения: этот метод заменяет каждую категорию средним значением целевой переменной, исключая текущую точку данных.
-
Полиномиальный кодировщик: он использует полиномиальное уравнение для кодирования категорий на основе их последовательности и частоты.
-
Обратный кодировщик различий. Этот метод заменяет каждую категорию разницей между средним значением целевой переменной для этой категории и средним значением предыдущей категории.
-
Хеширующий кодировщик: применяет к категориям функцию хеширования, уменьшая размерность при сохранении информации.
-
Кодер BaseN: этот метод преобразует каждую категорию в числовой формат по основанию N.
-
Хэшер функций: он использует прием хеширования для преобразования категориальных функций в числовое представление.
-
Рандомизированный кодировщик. Этот метод заменяет категории случайными значениями, предотвращая переобучение и уменьшая влияние редких категорий.