Освоение манипулирования данными с помощью dplyr: удобная шпаргалка для специалистов по обработке данных

Манипулирование данными — важный навык для любого ученого или аналитика данных. Он включает в себя преобразование и изменение наборов данных для извлечения значимой информации. Когда дело доходит до манипулирования данными в R, одним из самых популярных и мощных пакетов является dplyr. В этой статье блога мы рассмотрим различные методы dplyr, используя разговорный язык, и предоставим примеры кода, что даст вам удобную шпаргалку для улучшения ваших навыков обработки данных.

Метод 1: выбор столбцов с помощью select()
Функция select()позволяет выбирать определенные столбцы из набора данных. Например, предположим, что у нас есть набор данных под названием my_dataсо столбцами с именами «имя», «возраст» и «зарплата». Чтобы выбрать только столбцы «имя» и «зарплата», вы можете использовать следующий код:

selected_data <- select(my_data, name, salary)

Метод 2: фильтрация строк с помощью filter()
Функция filter()помогает извлечь определенные строки на основе определенных условий. Допустим, мы хотим отфильтровать наш набор данных, чтобы он включал только строки, в которых столбец «возраст» больше 30. Вот как это можно сделать:

filtered_data <- filter(my_data, age > 30)

Метод 3: упорядочивание строк с помощью arrange()
Функция arrange()позволяет упорядочить набор данных на основе одного или нескольких столбцов. Чтобы отсортировать набор данных в порядке возрастания столбца «зарплата», вы можете использовать следующий код:

arranged_data <- arrange(my_data, salary)

Метод 4. Создание новых переменных с помощью mutate()
Функция mutate()помогает создавать новые переменные на основе существующих. Допустим, мы хотим добавить новый столбец под названием «Бонус», который рассчитывается как 10% от столбца «Зарплата». Вот как это можно сделать:

mutated_data <- mutate(my_data, bonus = salary * 0.1)

Метод 5: суммирование данных с помощью summarize()
Функция summarize()позволяет вычислить сводную статистику для вашего набора данных. Например, чтобы вычислить среднюю зарплату по всем строкам, вы можете использовать следующий код:

summary_data <- summarize(my_data, avg_salary = mean(salary))

Метод 6: группировка данных с помощью group_by()
Функция group_by()помогает создавать группы в наборе данных на основе одного или нескольких столбцов. Предположим, мы хотим рассчитать среднюю зарплату для каждой возрастной группы. Вот как это можно сделать:

grouped_data <- group_by(my_data, age)
summary_data <- summarize(grouped_data, avg_salary = mean(salary))

Метод 7: объединение данных с помощью left_join()
Функция left_join()позволяет объединить два набора данных на основе общего столбца. Например, если у вас есть два набора данных, data1и data2, и вы хотите объединить их, используя общий столбец с именем «id», вы можете использовать следующий код:

joined_data <- left_join(data1, data2, by = "id")

В этой статье мы рассмотрели несколько основных методов dplyr для манипулирования данными с использованием разговорного языка и предоставили примеры кода для каждого метода. Освоив эти методы, вы сможете эффективно обрабатывать и анализировать свои данные. Не забывайте обращаться к этой шпаргалке всякий раз, когда вам понадобится быстрое напоминание о том, как использовать мощные функции dplyr.