Difference Between The Pyspark Pipeline And The Sklearn Pipeline

The pipeline object in sklearn makes it easy to sequentially apply a list of transforms and a final estimator [1]. This makes it easy to organize models. PySpark has a similar pipeline API but there are some differences.

from pyspark.ml import Pipeline
from pyspark.ml import PipelineModel
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.regression import RandomForestRegressor


assembler = VectorAssembler(
    inputCols=feature_cols,
    outputCol="features"
)

rf = RandomForestRegressor(
    featuresCol="features",
    labelCol=response_variable,
    predictionCol="prediction",
    **parameters
)

pipeline = Pipeline(stages=[assembler, rf])
model = pipeline.fit(train)
test_with_predictions = model.predict(test)  # This will add a `prediction` column AND a `features` column to test.

# Save the model for later use.
model.write().overwrite().save('/tmp/my_great_model')

# Load the model later.
model = PipelineModel.load('/tmp/my_great_model')

Difference Between The Pyspark Pipeline And The Sklearn Pipeline

References

Comments