Обнаружение выбросов в R: методы и методы выявления выбросов данных

Чтобы выявить выбросы в R, вы можете использовать различные статистические методы и приемы. Вот несколько подходов, которые вы можете рассмотреть:

  1. Метод Z-показателя. Рассчитайте z-показатели точек данных и определите любые значения, выходящие за пределы указанного порога (обычно считается, что z-показатель больше 3 или меньше -3). выброс).

  2. Коробчатые диаграммы. Постройте коробчатую диаграмму своих данных и найдите точки, находящиеся за пределами «усов» (линий, выходящих из рамки). Эти точки могут быть потенциальными выбросами.

  3. Модифицированный Z-показатель. Подобно методу z-показателя, модифицированный z-показатель учитывает медиану и медианное абсолютное отклонение (MAD) вместо среднего и стандартного отклонения. В некоторых случаях он более устойчив к выбросам.

  4. Ограждения Тьюки. Используйте ограничения Тьюки, чтобы определить интервал, в который должно попадать большинство точек данных. Любые значения за пределами этого интервала можно рассматривать как выбросы.

  5. Расстояние Махаланобиса. Рассчитайте расстояние Махаланобиса для каждой точки данных, которое учитывает корреляцию между переменными. Точки с большими расстояниями можно помечать как выбросы.

  6. Обнаружение выбросов на основе плотности. Используйте алгоритмы кластеризации на основе плотности, такие как DBSCAN (пространственная кластеризация приложений с шумом на основе плотности) или LOF (локальный коэффициент выбросов), чтобы идентифицировать выбросы на основе плотности данных.

  7. Тестирование выбросов: выполните специальные статистические тесты на выбросы, такие как тест Граббса, Q-критерий Диксона или критерий Шовене, для обнаружения выбросов на основе предположений об основном распределении.