Раскрытие силы выбросов: руководство по маркировке и визуализации выбросов в коробчатых диаграммах

Выбросы – неприятные точки данных, которые лежат далеко от основной массы данных. Зачастую они могут нанести ущерб статистическому анализу и моделям. Обнаружение и понимание выбросов имеет решающее значение во многих областях, от финансов до здравоохранения. В этом сообщении блога мы рассмотрим различные методы маркировки и визуализации выбросов в коробчатых диаграммах с использованием языка программирования R, что упрощает выявление и анализ этих влиятельных точек данных.

Метод 1: метод Z-оценки
Метод Z-оценки — популярный способ обнаружения выбросов. Он рассчитывает количество стандартных отклонений, на которые точка данных отличается от среднего значения. Если точка данных имеет Z-показатель, превышающий заранее определенное пороговое значение (например, 2 или 3), она считается выбросом. Вот пример фрагмента кода:

# Calculate Z-scores
z_scores <- scale(data)
threshold <- 2
# Identify outliers
outliers <- which(abs(z_scores) > threshold)
# Tag outliers in boxplot
boxplot(data, outline=ifelse(seq_along(data) %in% outliers, TRUE, FALSE))

Метод 2: модифицированный метод Z-показателя
Модифицированный метод Z-показателя аналогичен методу Z-показателя, но вместо среднего и стандартного отклонения используются медиана и медианное абсолютное отклонение (MAD). Этот метод более устойчив к выбросам в асимметричных распределениях. Вот пример фрагмента кода:

# Calculate modified Z-scores
median <- median(data)
mad <- median(abs(data - median))
modified_z_scores <- 0.6745 * (data - median) / mad
# Identify outliers
outliers <- which(abs(modified_z_scores) > threshold)
# Tag outliers in boxplot
boxplot(data, outline=ifelse(seq_along(data) %in% outliers, TRUE, FALSE))

Метод 3: метод ограничения Тьюки
Метод ограничения Тьюки определяет «ограждение» вокруг верхнего и нижнего квартилей данных. Любая точка данных за пределами этих границ считается выбросом. Обычно порог определяется как 1,5-кратный межквартильный диапазон (IQR) выше и ниже верхнего и нижнего квартилей соответственно. Вот пример фрагмента кода:

# Calculate upper and lower fences
lower_fence <- quantile(data, 0.25) - 1.5 * IQR(data)
upper_fence <- quantile(data, 0.75) + 1.5 * IQR(data)
# Identify outliers
outliers <- which(data < lower_fence | data > upper_fence)
# Tag outliers in boxplot
boxplot(data, outline=ifelse(seq_along(data) %in% outliers, TRUE, FALSE))

Метод 4: Метод расстояния Махаланобиса
Расстояние Махаланобиса измеряет расстояние между точкой данных и центроидом набора данных с учетом ковариационной структуры данных. Точки данных с большими расстояниями Махаланобиса считаются выбросами. Вот пример фрагмента кода:

# Calculate Mahalanobis distance
cov_matrix <- cov(data)
inv_cov_matrix <- solve(cov_matrix)
centroid <- colMeans(data)
mahalanobis_dist <- sqrt(rowSums((data - centroid) %*% inv_cov_matrix %*% t(data - centroid)))
# Identify outliers
outliers <- which(mahalanobis_dist > threshold)
# Tag outliers in boxplot
boxplot(data, outline=ifelse(seq_along(data) %in% outliers, TRUE, FALSE))

В этой записи блога мы рассмотрели несколько методов маркировки и визуализации выбросов в коробчатых диаграммах с использованием языка программирования R. Используя эти методы, вы можете улучшить анализ данных и получить более глубокое понимание своих наборов данных. Помните, что обнаружение и понимание выбросов имеет решающее значение для принятия обоснованных решений в различных областях. Итак, используйте эти методы, чтобы раскрыть потенциал выбросов в ваших данных!