Создание фреймов данных Spark в Python: из коллекций Python, фреймов данных Pandas и источников файлов

Чтобы создать DataFrame Spark в Python, вы можете использовать различные методы. Вот несколько часто используемых подходов:

  1. Из существующей коллекции Python:

    from pyspark.sql import SparkSession
    spark = SparkSession.builder.getOrCreate()
    data = [('John', 25), ('Alice', 30), ('Bob', 35)]
    df = spark.createDataFrame(data, ['Name', 'Age'])
  2. Из кадра данных pandas:

    import pandas as pd
    from pyspark.sql import SparkSession
    spark = SparkSession.builder.getOrCreate()
    pandas_df = pd.DataFrame({'Name': ['John', 'Alice', 'Bob'], 'Age': [25, 30, 35]})
    df = spark.createDataFrame(pandas_df)
  3. Чтение из файла (например, CSV, JSON, Parquet):

    from pyspark.sql import SparkSession
    spark = SparkSession.builder.getOrCreate()
    df = spark.read.csv('file.csv', header=True, inferSchema=True)
  4. Применение преобразований к существующему DataFrame:

    from pyspark.sql import SparkSession
    from pyspark.sql.functions import col
    spark = SparkSession.builder.getOrCreate()
    old_df = spark.createDataFrame([('John', 25), ('Alice', 30), ('Bob', 35)], ['Name', 'Age'])
    df = old_df.select(col('Name'), (col('Age') + 1).alias('Age'))

Это всего лишь несколько примеров того, как создать DataFrame Spark в Python. Существуют и другие методы, доступные в зависимости от вашего источника данных и требований.