Комплексное руководство по стандартизации фреймов данных: методы и примеры кода - Fcodenotes

Стандартизация данных — важнейший шаг в предварительной обработке и очистке данных, особенно при работе с DataFrames. Стандартизация данных гарантирует, что переменные находятся в едином масштабе, устраняя систематические ошибки и позволяя проводить справедливые сравнения. В этой статье мы рассмотрим несколько методов стандартизации DataFrames, используя примеры кода в библиотеке Python Pandas. Давайте погрузимся!

Стандартизация с использованием Z-Score:
Метод Z-Score преобразует каждое значение путем вычитания среднего значения и деления на стандартное отклонение столбца.

import pandas as pd
def z_score_standardization(df):
    return (df - df.mean()) / df.std()
# Example usage
standardized_df = z_score_standardization(df)

Масштабирование «Мин-Макс».
Масштабирование «Мин-Макс» изменяет масштаб значений до заданного диапазона, обычно от 0 до 1, путем вычитания минимального значения и деления на диапазон.

def min_max_scaling(df):
    return (df - df.min()) / (df.max() - df.min())
# Example usage
scaled_df = min_max_scaling(df)

Десятичное масштабирование.
Десятичное масштабирование делит каждое значение на степень 10 на основе максимального абсолютного значения в столбце, в результате чего получаются значения от -1 до 1.

import numpy as np
def decimal_scaling(df):
    max_value = np.abs(df).max()
    return df / (10  np.ceil(np.log10(max_value)))
# Example usage
scaled_df = decimal_scaling(df)

Надежное масштабирование.
Надежное масштабирование полезно при работе с выбросами. Он вычитает медиану и масштабирует значения по межквартильному диапазону.

from sklearn.preprocessing import RobustScaler
def robust_scaling(df):
    scaler = RobustScaler()
    return pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
# Example usage
scaled_df = robust_scaling(df)

Преобразование журнала.
Преобразование журнала может быть полезно при работе с искаженными данными. Он применяет натуральный логарифм к каждому значению в DataFrame.

def log_transformation(df):
    return np.log1p(df)
# Example usage
transformed_df = log_transformation(df)

В этой статье мы рассмотрели различные методы стандартизации DataFrames. Метод Z-Score, масштабирование Min-Max, десятичное масштабирование, устойчивое масштабирование и логарифмическое преобразование — все это эффективные методы приведения переменных к общему масштабу. В зависимости от характера ваших данных и конкретных требований вы можете выбрать наиболее подходящий метод. Стандартизация данных – это важный этап предварительной обработки в задачах машинного обучения и анализа данных, позволяющий получать точную и значимую информацию из ваших данных.

Не забудьте адаптировать примеры кода к вашему конкретному DataFrame и требованиям. Удачной стандартизации!