Разработка функций и предварительная обработка данных в машинном обучении - Fcodenotes

«Проектирование функций» и «предварительная обработка данных» — это термины, обычно используемые в области науки о данных и машинного обучения. Они относятся к различным методам и методам, используемым для преобразования необработанных данных в формат, подходящий для анализа и обучения модели. Вот несколько методов, обычно используемых при разработке функций и предварительной обработке данных:

Вменение: обработка пропущенных значений в данных путем заполнения их оценочными или расчетными значениями.
Кодирование: преобразование категориальных переменных в числовые представления, подходящие для алгоритмов машинного обучения. Сюда входит горячее кодирование, кодирование меток и порядковое кодирование.
Масштабирование: стандартизация числовых характеристик по общей шкале, например нормализация z-показателя или масштабирование минимального и максимального значений.
Биннинг: группировка непрерывных числовых переменных в дискретные ячейки или интервалы.
Извлечение функций: создание новых функций на основе существующих, например извлечение компонентов даты из временной метки или получение статистических функций, таких как среднее значение, медиана или дисперсия.
Предварительная обработка текста: очистка и преобразование текстовых данных, включая такие методы, как токенизация, удаление стоп-слов, стемминг и лемматизация.
Сокращение размерности: сокращение количества объектов при сохранении важной информации, например, с использованием таких методов, как анализ главных компонентов (PCA) или t-распределенное стохастическое внедрение соседей (t-SNE).
Обнаружение выбросов: выявление и обработка выбросов в данных, которые могут исказить результаты анализа и модели.
Нормализация: настройка распределения данных в соответствии с определенным распределением или устранение асимметрии, например преобразование журнала или преобразование Бокса-Кокса.
Выбор функций: выбор наиболее подходящих функций для обучения модели на основе статистических тестов, показателей важности функций или знаний предметной области.