Изучение способов вычисления корреляции числовых столбцов в R

При анализе данных понимание взаимосвязи между переменными имеет решающее значение. Одним из распространенных показателей, используемых для измерения силы и направления связи между числовыми переменными, является корреляция. В этой статье блога мы рассмотрим различные методы R для вычисления корреляции исключительно по числовым столбцам. Мы предоставим примеры кода и объясним каждый метод, используя разговорный язык, чтобы его было легко понять.

Методы:

  1. Использование функции cor():
    Функция cor() в R вычисляет коэффициент корреляции между двумя числовыми векторами. Чтобы вычислить корреляцию числовых столбцов во фрейме данных, вы можете использовать следующий код:
cor_matrix <- cor(data_frame[, sapply(data_frame, is.numeric)])
  1. Использование функции cor.test():
    Функция cor.test() не только вычисляет коэффициент корреляции, но также выполняет проверку гипотезы, чтобы определить, является ли корреляция статистически значимой. Вот пример:
result <- cor.test(data_frame$column1, data_frame$column2)
correlation <- result$estimate
p_value <- result$p.value
  1. Использование пакета Hmisc:
    Пакет Hmisc предоставляет дополнительные функции для вычисления корреляции, такие как rcorr(). Эта функция возвращает матрицу корреляции и матрицу p-значений. Вот пример:
library(Hmisc)
result <- rcorr(data_frame[, sapply(data_frame, is.numeric)])
correlation_matrix <- result$r
p_value_matrix <- result$P
  1. Использование пакета psych:
    Пакет psych предлагает функцию corr.test(), которая вычисляет корреляции и выполняет проверку гипотез. Кроме того, он предоставляет различные варианты обработки пропущенных значений. Вот пример:
library(psych)
result <- corr.test(data_frame[, sapply(data_frame, is.numeric)])
correlation_matrix <- result$r
p_value_matrix <- result$p
  1. Использование пакетов dplyr и tidyr:
    Пакеты dplyr и tidyr предоставляют гибкий и интуитивно понятный способ вычисления корреляций в числовых столбцах. Вы можете использовать следующий код:
library(dplyr)
library(tidyr)
correlation_matrix <- data_frame %>%
  select_if(is.numeric) %>%
  cor()