Изучение анализа главных компонентов (PCA) в R: раскрытие магии уменьшения размерности

В мире анализа данных и машинного обучения анализ главных компонентов (PCA) – это мощный метод, используемый для уменьшения размерности. Это помогает извлекать значимую информацию из многомерных данных путем преобразования ее в пространство более низкой размерности. В этой статье блога мы углубимся в глубины PCA и рассмотрим различные методы и примеры кода в R.

Что такое PCA?
PCA — это статистический метод, целью которого является поиск набора новых переменных, называемых главными компонентами, которые представляют собой линейную комбинацию исходных переменных. Эти основные компоненты фиксируют максимальное количество информации, присутствующей в данных, при этом минимизируя потерю информации. Уменьшая размерность данных, PCA упрощает анализ и визуализацию сложных наборов данных.

Метод 1: загрузка и исследование данных
Чтобы продемонстрировать PCA, давайте используем знаменитый набор данных радужной оболочки глаза, доступный в R. Начните с загрузки набора данных, используя следующий код:

library(datasets)
data(iris)

Метод 2: стандартизация данных
PCA чувствителен к масштабу переменных. Поэтому важно стандартизировать данные перед применением PCA. Используйте следующий код для стандартизации числовых переменных:

iris_scaled <- scale(iris[, 1:4])

Метод 3: выполнение PCA
Далее мы выполним PCA на стандартизированных данных. Для этой цели можно использовать функцию prcomp()в R. Вот пример фрагмента кода:

pca <- prcomp(iris_scaled)

Метод 4: Визуализация объясненной дисперсии
Чтобы понять, какую дисперсию объясняет каждый главный компонент, мы можем создать осыпную диаграмму. На этом графике показана совокупная доля дисперсии, объясняемая каждым главным компонентом. Используйте следующий код для создания осыпной диаграммы:

plot(pca, type = "l")

Метод 5: извлечение главных компонентов
Мы можем извлечь главные компоненты из объекта PCA, полученного в методе 3. Матрица pca$xсодержит преобразованные данные с главными компонентами. Вот пример фрагмента кода:

pc_data <- as.data.frame(pca$x[, 1:2]) # Extracting the first two principal components

Метод 6: Интерпретация главных компонентов
Чтобы понять вклад каждой переменной в главные компоненты, мы можем изучить нагрузки. Матрица pca$rotationсодержит нагрузки, которые можно интерпретировать как коэффициенты корреляции. Используйте следующий код для просмотра загрузок:

loadings <- pca$rotation[, 1:2] # Extracting loadings for the first two principal components
print(loadings)

В этой статье блога мы изучили концепцию анализа главных компонентов (PCA) и продемонстрировали различные методы выполнения PCA с использованием R. Мы загрузили и исследовали данные, стандартизировали их, выполнили PCA, визуализировали объясненную дисперсию, извлекли основные компоненты и и интерпретировали их нагрузки. PCA – это ценный метод уменьшения размерности, который дает представление о базовой структуре сложных наборов данных.