Полное руководство по нормализации функций: методы и примеры кода

При предварительной обработке данных и машинном обучении функции нормализации играют решающую роль в преобразовании данных в стандартный масштаб. Нормализация помогает улучшить производительность и интерпретируемость моделей, гарантируя, что объекты находятся в одинаковом масштабе. В этой статье мы рассмотрим несколько методов нормализации функций и предоставим примеры кода с использованием Python.

  1. Масштабирование «Мин-Макс».
    Масштабирование «Мин-Макс», также известное как масштабирование объектов, масштабирует данные в определенный диапазон, обычно от 0 до 1. При этом сохраняется исходное распределение данных. Вот пример того, как выполнить масштабирование Min-Max в Python:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)
  1. Нормализация Z-показателя.
    Нормализация Z-показателя, также называемая стандартизацией, преобразует данные так, чтобы они имели нулевое среднее значение и единичную дисперсию. Это полезно, когда данные имеют распределение Гаусса. Вот пример того, как выполнить нормализацию Z-Score в Python:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
normalized_data = scaler.fit_transform(data)
  1. Десятичное масштабирование.
    Десятичное масштабирование — это метод, при котором данные делятся на степень 10, так что абсолютное максимальное значение становится меньше или равно 1. При этом сохраняется относительный порядок данных. Вот пример того, как выполнить десятичное масштабирование в Python:
import numpy as np
max_value = np.max(data)
decimal_scaled_data = data / (10  np.ceil(np.log10(max_value)))
  1. Преобразование журнала.
    Преобразование журнала применяет к данным логарифмическую функцию, что помогает уменьшить влияние больших значений и асимметрии. Обычно он используется, когда данные имеют положительную асимметрию. Вот пример того, как выполнить преобразование журнала в Python:
import numpy as np
log_transformed_data = np.log(data)

В этой статье мы рассмотрели несколько методов нормализации функций на примерах кода с использованием Python. Масштабирование Min-Max, нормализация Z-Score, десятичное масштабирование и логарифмическое преобразование — это мощные методы, которые можно применять в зависимости от характеристик ваших данных. Нормализуя функции, вы можете гарантировать, что функции имеют одинаковый масштаб, что способствует повышению производительности и интерпретируемости модели.