Вот несколько методов, которые можно использовать в PySpark для фильтрации нулевых значений:
- Использование функции «isNull()». Вы можете использовать функцию «isNull()», чтобы проверить, является ли значение столбца нулевым. Вот пример:
from pyspark.sql import SparkSession
# Create a SparkSession
spark = SparkSession.builder.getOrCreate()
# Load the dataset
df = spark.read.csv("your_dataset.csv", header=True, inferSchema=True)
# Filter out null values in a specific column
filtered_df = df.filter(df["column_name"].isNull())
# Show the filtered results
filtered_df.show()
- Использование функции «isNotNull()». Эта функция позволяет отфильтровывать ненулевые значения в столбце. Вот пример:
from pyspark.sql import SparkSession
# Create a SparkSession
spark = SparkSession.builder.getOrCreate()
# Load the dataset
df = spark.read.csv("your_dataset.csv", header=True, inferSchema=True)
# Filter out non-null values in a specific column
filtered_df = df.filter(df["column_name"].isNotNull())
# Show the filtered results
filtered_df.show()
- Использование синтаксиса SQL: PySpark также поддерживает синтаксис SQL для фильтрации нулевых значений. Вы можете зарегистрировать DataFrame как временную таблицу, а затем использовать запросы SQL. Вот пример:
from pyspark.sql import SparkSession
# Create a SparkSession
spark = SparkSession.builder.getOrCreate()
# Load the dataset
df = spark.read.csv("your_dataset.csv", header=True, inferSchema=True)
# Register the DataFrame as a temporary table
df.createOrReplaceTempView("temp_table")
# Filter out null values using SQL syntax
filtered_df = spark.sql("SELECT * FROM temp_table WHERE column_name IS NULL")
# Show the filtered results
filtered_df.show()
Эти методы позволяют отфильтровывать нулевые значения в PySpark. Вы можете выбрать тот, который лучше всего соответствует вашим требованиям и набору данных.