Создание фреймов данных Spark в Python: из коллекций Python, фреймов данных Pandas и источников файлов - Fcodenotes

Чтобы создать DataFrame Spark в Python, вы можете использовать различные методы. Вот несколько часто используемых подходов:

Из существующей коллекции Python:

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [('John', 25), ('Alice', 30), ('Bob', 35)]
df = spark.createDataFrame(data, ['Name', 'Age'])

Из кадра данных pandas:

import pandas as pd
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
pandas_df = pd.DataFrame({'Name': ['John', 'Alice', 'Bob'], 'Age': [25, 30, 35]})
df = spark.createDataFrame(pandas_df)

Чтение из файла (например, CSV, JSON, Parquet):

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.read.csv('file.csv', header=True, inferSchema=True)

Применение преобразований к существующему DataFrame:

from pyspark.sql import SparkSession
from pyspark.sql.functions import col
spark = SparkSession.builder.getOrCreate()
old_df = spark.createDataFrame([('John', 25), ('Alice', 30), ('Bob', 35)], ['Name', 'Age'])
df = old_df.select(col('Name'), (col('Age') + 1).alias('Age'))

Это всего лишь несколько примеров того, как создать DataFrame Spark в Python. Существуют и другие методы, доступные в зависимости от вашего источника данных и требований.