apache-spark tutorials and guides

Databricks: Z-order vs partitionBy

Mar 21, 2026

Read only Delta between 2 versions of deltaLake

Mar 23, 2026

apache-spark pyspark databricks azure-synapse delta-lake

Pass a function with any case class return type as parameter

Mar 22, 2026

scala apache-spark dataframe case-class classtag

Developing a spark streaming application

Mar 21, 2026

apache-spark spark-streaming

Convert csv.gz files into Parquet using Spark

Mar 22, 2026

scala hadoop amazon-s3 apache-spark parquet

How to add custom method to Pyspark Dataframe class by inheritance

Mar 22, 2026

python apache-spark pyspark

Spark count vs take and length

Mar 22, 2026

scala performance apache-spark apache-spark-sql query-optimization

val vs def performance on Spark Dataframe

Mar 22, 2026

scala apache-spark

Azure Synapse: Target Spark pool specified in Spark job definition is not in succeeded state. Current state: Provisioning

Mar 22, 2026

apache-spark package azure-synapse

Spark join array

Mar 21, 2026

scala apache-spark

How is YARN ResourceManager's Total Memory calculated?

Mar 22, 2026

apache-spark pyspark amazon-emr

Can someone distinguish between RDD Lineage and a DAG (Direct Acyclic Graph)?

Mar 20, 2026

apache-spark directed-acyclic-graphs

Hbase doesn't work well with spark-submit

Mar 22, 2026

java scala apache-spark hbase spark-submit

Why spark broadcast doesn't work well when I use extends App?

Mar 21, 2026

scala apache-spark akka

RDD Memory footprint in spark

Mar 20, 2026

apache-spark compression rdd parquet memory-footprint

Are spark dataframes distributed?

Mar 20, 2026

python apache-spark

New posts in apache-spark