Чтобы выявить выбросы в R, вы можете использовать различные статистические методы и приемы. Вот несколько подходов, которые вы можете рассмотреть:
-
Метод Z-показателя. Рассчитайте z-показатели точек данных и определите любые значения, выходящие за пределы указанного порога (обычно считается, что z-показатель больше 3 или меньше -3). выброс).
-
Коробчатые диаграммы. Постройте коробчатую диаграмму своих данных и найдите точки, находящиеся за пределами «усов» (линий, выходящих из рамки). Эти точки могут быть потенциальными выбросами.
-
Модифицированный Z-показатель. Подобно методу z-показателя, модифицированный z-показатель учитывает медиану и медианное абсолютное отклонение (MAD) вместо среднего и стандартного отклонения. В некоторых случаях он более устойчив к выбросам.
-
Ограждения Тьюки. Используйте ограничения Тьюки, чтобы определить интервал, в который должно попадать большинство точек данных. Любые значения за пределами этого интервала можно рассматривать как выбросы.
-
Расстояние Махаланобиса. Рассчитайте расстояние Махаланобиса для каждой точки данных, которое учитывает корреляцию между переменными. Точки с большими расстояниями можно помечать как выбросы.
-
Обнаружение выбросов на основе плотности. Используйте алгоритмы кластеризации на основе плотности, такие как DBSCAN (пространственная кластеризация приложений с шумом на основе плотности) или LOF (локальный коэффициент выбросов), чтобы идентифицировать выбросы на основе плотности данных.
-
Тестирование выбросов: выполните специальные статистические тесты на выбросы, такие как тест Граббса, Q-критерий Диксона или критерий Шовене, для обнаружения выбросов на основе предположений об основном распределении.