Среднеквадратическая ошибка (MSE) и R-квадрат: метрики оценки для моделей регрессии

Среднеквадратическая ошибка и R-квадрат — это статистические показатели, обычно используемые в регрессионном анализе для оценки эффективности прогнозных моделей. Вот объяснение этих терминов:

  1. Среднеквадратическая ошибка (MSE): MSE — это мера среднеквадратической разницы между прогнозируемыми и фактическими значениями в регрессионной модели. Он вычисляет среднее значение квадратов остатков, которые представляют собой разницу между прогнозируемыми и фактическими значениями. MSE обеспечивает общую оценку точности модели: более низкие значения указывают на лучшую производительность. Формула MSE:

    MSE = (1/n) * Σ(yᵢ – ş)²

    где yᵢ представляет собой фактические значения, ş представляет прогнозируемые значения, а n — количество точек данных.

  2. R-квадрат (R²): R-квадрат — это статистическая мера, которая представляет собой долю дисперсии зависимой переменной (целевой переменной), которую можно объяснить независимыми переменными (переменными-предикторами) в регрессии. модель. Он измеряет степень соответствия модели. R-квадрат находится в диапазоне от 0 до 1, где 1 указывает, что вся изменчивость зависимой переменной объясняется моделью. Однако R-квадрат может вводить в заблуждение, если использоваться отдельно, и его следует интерпретировать вместе с другими показателями. Формула R-квадрата:

    R² = 1 – (SSres / SStot)

    где SSres — это сумма квадратов остатков, а SStot — общая сумма квадратов.

Другие методы оценки регрессионных моделей включают:

  1. Средняя абсолютная ошибка (MAE): MAE вычисляет среднюю абсолютную разницу между прогнозируемыми и фактическими значениями. Он позволяет измерить среднюю величину ошибок без учета их направления.

  2. Среднеквадратическая ошибка (RMSE): RMSE — это квадратный корень из MSE. Он часто используется для выражения ошибки в тех же единицах, что и целевая переменная, обеспечивая более интерпретируемую меру.

  3. Скорректированный R-квадрат. Скорректированный R-квадрат – это модифицированная версия R-квадрата, которая корректируется с учетом количества предикторов в модели. Он наказывает добавление нерелевантных предикторов и помогает предотвратить переобучение.

  4. Информационный критерий Акаике (AIC): AIC — это мера, которая уравновешивает степень соответствия и сложность модели. Он позволяет сравнить различные модели и выбрать ту, которая лучше всего объясняет данные, избегая при этом переобучения.