При анализе данных понимание взаимосвязи между переменными имеет решающее значение. Одним из распространенных показателей, используемых для измерения силы и направления связи между числовыми переменными, является корреляция. В этой статье блога мы рассмотрим различные методы R для вычисления корреляции исключительно по числовым столбцам. Мы предоставим примеры кода и объясним каждый метод, используя разговорный язык, чтобы его было легко понять.
Методы:
- Использование функции cor():
Функция cor() в R вычисляет коэффициент корреляции между двумя числовыми векторами. Чтобы вычислить корреляцию числовых столбцов во фрейме данных, вы можете использовать следующий код:
cor_matrix <- cor(data_frame[, sapply(data_frame, is.numeric)])
- Использование функции cor.test():
Функция cor.test() не только вычисляет коэффициент корреляции, но также выполняет проверку гипотезы, чтобы определить, является ли корреляция статистически значимой. Вот пример:
result <- cor.test(data_frame$column1, data_frame$column2)
correlation <- result$estimate
p_value <- result$p.value
- Использование пакета Hmisc:
Пакет Hmisc предоставляет дополнительные функции для вычисления корреляции, такие как rcorr(). Эта функция возвращает матрицу корреляции и матрицу p-значений. Вот пример:
library(Hmisc)
result <- rcorr(data_frame[, sapply(data_frame, is.numeric)])
correlation_matrix <- result$r
p_value_matrix <- result$P
- Использование пакета psych:
Пакет psych предлагает функцию corr.test(), которая вычисляет корреляции и выполняет проверку гипотез. Кроме того, он предоставляет различные варианты обработки пропущенных значений. Вот пример:
library(psych)
result <- corr.test(data_frame[, sapply(data_frame, is.numeric)])
correlation_matrix <- result$r
p_value_matrix <- result$p
- Использование пакетов dplyr и tidyr:
Пакеты dplyr и tidyr предоставляют гибкий и интуитивно понятный способ вычисления корреляций в числовых столбцах. Вы можете использовать следующий код:
library(dplyr)
library(tidyr)
correlation_matrix <- data_frame %>%
select_if(is.numeric) %>%
cor()