Изучение различных методов категориального кодирования с помощью библиотеки Category_encoders

“category_encoders” — это английский термин, обозначающий библиотеку Python, которая предоставляет различные методы кодирования категориальных переменных в задачах машинного обучения и анализа данных. Он предлагает ряд методов преобразования категориальных функций в числовые представления, которые могут быть легко использованы алгоритмами машинного обучения. Вот несколько популярных методов, предоставляемых библиотекой “category_encoders”:

  1. Порядковый кодировщик. Этот метод присваивает уникальное целочисленное значение каждой категории, сохраняя порядковые отношения между ними.

  2. One-Hot Encoder: он создает двоичные столбцы для каждой категории, где каждый столбец представляет наличие или отсутствие категории.

  3. Двоичный кодировщик. Этот метод преобразует каждую категорию в двоичный код, в результате чего получается меньше столбцов по сравнению с горячим кодированием.

  4. Кодер подсчета: он заменяет каждую категорию количеством ее вхождений в наборе данных, что может быть полезно для категориальных функций с высокой мощностью.

  5. Целевой кодировщик: этот метод заменяет каждую категорию средним целевым значением соответствующей категории, что является хорошим выбором для задач классификации.

  6. CatBoost Encoder: сочетает в себе аспекты целевого кодирования и горячего кодирования, используя целевую статистику и категориальную вероятность.

  7. Кодер Джеймса-Стейна: этот метод объединяет информацию из целевого кодирования и глобального среднего значения для повышения точности.

  8. Кодер Хелмерта: он заменяет каждую категорию разницей между средним значением целевой переменной для этой категории и общим средним значением.

  9. Кодер с пропуском одного значения: этот метод заменяет каждую категорию средним значением целевой переменной, исключая текущую точку данных.

  10. Полиномиальный кодировщик: он использует полиномиальное уравнение для кодирования категорий на основе их последовательности и частоты.

  11. Обратный кодировщик различий. Этот метод заменяет каждую категорию разницей между средним значением целевой переменной для этой категории и средним значением предыдущей категории.

  12. Хеширующий кодировщик: применяет к категориям функцию хеширования, уменьшая размерность при сохранении информации.

  13. Кодер BaseN: этот метод преобразует каждую категорию в числовой формат по основанию N.

  14. Хэшер функций: он использует прием хеширования для преобразования категориальных функций в числовое представление.

  15. Рандомизированный кодировщик. Этот метод заменяет категории случайными значениями, предотвращая переобучение и уменьшая влияние редких категорий.