В Python Spark предоставляет мощный модуль под названием «Spark DataFrame», который построен на основе инфраструктуры распределенных вычислений Spark. Он предлагает высокоуровневый API для работы со структурированными и полуструктурированными данными. Вот несколько методов, обычно используемых с кадрами данных Spark:
show()
: отображает содержимое DataFrame в табличном формате.printSchema()
: печатает схему DataFrame, включая типы данных и флаги, допускающие значение NULL.select()
: выбирает определенные столбцы из DataFrame.filter()
: фильтрует строки DataFrame на основе условия.groupBy()
: группирует DataFrame на основе указанных столбцов.agg()
: выполняет агрегатные функции, такие как сумма, количество, среднее значение и т. д., для сгруппированных данных.orderBy()
: сортирует DataFrame на основе одного или нескольких столбцов.join()
: выполняет операции соединения между двумя кадрами данных на основе общих столбцов.distinct()
: возвращает отдельные строки из DataFrame.withColumn()
: добавляет новый столбец или заменяет существующий столбец измененным значением.