rdd tutorials and guides

Use groupby or aggregate to merge items in each transaction in RDD or DataFrame to do FP-growth

Feb 06, 2026

scala.MatchError: null on spark RDDs

Feb 05, 2026

scala apache-spark rdd apache-spark-mllib collaborative-filtering

In Apache Spark how can I group all the rows of an RDD by two shared values?

Jan 31, 2026

scala apache-spark cassandra rdd

How we can sort and group data from the Spark RDDs?

Jan 26, 2026

scala sorting apache-spark scala-collections rdd

modifying RDD of object in spark (scala)

Jan 25, 2026

scala apache-spark rdd

How can I further reduce my Apache Spark task size

Jan 25, 2026

scala apache-spark task rdd

Can reduceBykey be used to change type and combine values - Scala Spark?

Jan 25, 2026

scala apache-spark rdd

Spark spends a long time on HadoopRDD: Input split

Jan 24, 2026

scala apache-spark rdd apache-spark-mllib hadoop-partitioning

Spark RDD: How to calculate statistics most efficiently?

Jan 03, 2026

apache-spark pyspark distributed-computing rdd apache-spark-mllib

Spark: RDD Left Outer Join Optimization for Duplicate Keys

Dec 22, 2025

apache-spark join rdd

Details of Stage in Spark

Dec 20, 2025

scala hadoop apache-spark apache-spark-sql rdd

Unable to perform aggregation on 2 values using groupByKey in spark using scala

Dec 20, 2025

scala apache-spark rdd

scala: Handle tuple where second element of tuple is an array of strings

Dec 15, 2025

scala apache-spark rdd

Apache Spark spilling to disk

Dec 11, 2025

scala apache-spark rdd

Filtering RDDs based on value of Key

Dec 10, 2025

scala apache-spark rdd

SPARK - Use RDD.foreach to Create a Dataframe and execute actions on the Dataframe

Dec 10, 2025

scala apache-spark dataframe apache-spark-sql rdd

How to split an RDD into multiple (smaller) RDDs given a max number of rows per RDD, and without using an ID column

Dec 09, 2025

split apache-spark rdd

New posts in rdd