Чтобы создать DataFrame Spark в Python, вы можете использовать различные методы. Вот несколько часто используемых подходов:
-
Из существующей коллекции Python:
from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() data = [('John', 25), ('Alice', 30), ('Bob', 35)] df = spark.createDataFrame(data, ['Name', 'Age']) -
Из кадра данных pandas:
import pandas as pd from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() pandas_df = pd.DataFrame({'Name': ['John', 'Alice', 'Bob'], 'Age': [25, 30, 35]}) df = spark.createDataFrame(pandas_df) -
Чтение из файла (например, CSV, JSON, Parquet):
from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() df = spark.read.csv('file.csv', header=True, inferSchema=True) -
Применение преобразований к существующему DataFrame:
from pyspark.sql import SparkSession from pyspark.sql.functions import col spark = SparkSession.builder.getOrCreate() old_df = spark.createDataFrame([('John', 25), ('Alice', 30), ('Bob', 35)], ['Name', 'Age']) df = old_df.select(col('Name'), (col('Age') + 1).alias('Age'))
Это всего лишь несколько примеров того, как создать DataFrame Spark в Python. Существуют и другие методы, доступные в зависимости от вашего источника данных и требований.