apache-spark tutorials and guides

Spark ML VectorAssembler returns strange output

Apr 20, 2021

Why do I get "partition values: [empty row]" log messages when reading a file?

Oct 03, 2019

apache-spark apache-spark-sql

spark over kubernetes vs yarn/hadoop ecosystem [closed]

Oct 29, 2022

apache-spark hadoop kubernetes

How to generate datasets dynamically based on schema?

Sep 14, 2022

scala apache-spark apache-spark-sql

How to use mllib.recommendation if the user ids are string instead of contiguous integers?

Oct 07, 2022

apache-spark recommendation-engine apache-spark-mllib

Pyspark Invalid Input Exception try except error

Nov 17, 2020

python amazon-s3 exception-handling apache-spark pyspark

While submit job with pyspark, how to access static files upload with --files argument?

Mar 29, 2022

python apache-spark pyspark google-cloud-dataproc

Spark job with Async HTTP call

Nov 18, 2022

scala apache-spark future

Filter by whether column value equals a list in Spark

Mar 15, 2022

python apache-spark pyspark apache-spark-sql

SPARK DataFrame: How to efficiently split dataframe for each group based on same column values

Oct 21, 2022

scala apache-spark apache-spark-sql spark-dataframe parquet

Separating application logs in Logback from Spark Logs in log4j

Apr 17, 2018

scala maven logging apache-spark jar

Why is predicate pushdown not used in typed Dataset API (vs untyped DataFrame API)?

Oct 15, 2022

apache-spark dataframe apache-spark-sql apache-spark-dataset

PySpark vs sklearn TFIDF

Mar 08, 2022

python apache-spark scikit-learn pyspark

How far will Spark RDD cache go?

Jan 14, 2017

apache-spark distributed-computing

Zip support in Apache Spark

Apr 06, 2022

compression zip apache-spark

AttributeError: Can't get attribute 'new_block' on <module 'pandas.core.internals.blocks'>

Oct 06, 2022

python pandas apache-spark pyspark attributeerror

Spark runs out of memory when grouping by key

Oct 24, 2022

scala amazon-ec2 apache-spark

How to upgrade Spark to newer version?

Apr 13, 2022

apache-spark

Spark case class - decimal type encoder error "Cannot up cast from decimal"

Jan 09, 2019

scala apache-spark apache-spark-sql

Read all Parquet files saved in a folder via Spark

Oct 03, 2022

scala apache-spark apache-spark-sql

New posts in apache-spark