apache-spark-sql tutorials

Using Spark 2.3.1 with Scala, Reduce Arbitrary List of Date Ranges into distinct non-overlapping ranges of dates

Sep 22, 2022

How to give alias name for posexplode columns in Spark SQL?

Aug 30, 2022

sql apache-spark apache-spark-sql

How to save dataframe to Elasticsearch in PySpark?

Aug 18, 2022

apache-spark elasticsearch pyspark apache-spark-sql

How to calculate rolling sum with varying window sizes in PySpark

Apr 18, 2020

apache-spark pyspark apache-spark-sql pyspark-sql

Spark Partitionby doesn't scale as expected

Aug 27, 2022

apache-spark apache-spark-sql partitioning hadoop2 hadoop-partitioning

Spark Scheduling Within an Application : performance issue

Jul 07, 2022

scala apache-spark apache-spark-sql spark-streaming databricks

Elasticsearch + Apache Spark performance

Jul 06, 2022

elasticsearch apache-spark apache-spark-sql

SparkSQL - Lag function?

May 24, 2019

sql apache-spark pyspark apache-spark-sql window-functions

Spark - Adding JDBC Driver JAR to Google Dataproc

Nov 17, 2022

apache-spark jdbc google-cloud-platform apache-spark-sql google-cloud-dataproc

Do parquet files preserve the row order of Spark DataFrames?

Nov 01, 2022

apache-spark apache-spark-sql parquet

Regrouping / Concatenating DataFrame rows in Spark

Nov 18, 2022

scala apache-spark dataframe apache-spark-sql apache-spark-ml

Spark-HBASE Error java.lang.IllegalStateException: unread block data

Dec 21, 2021

apache-spark hbase apache-spark-sql

Persisting data to DynamoDB using Apache Spark

Nov 12, 2022

apache-spark amazon-dynamodb apache-spark-sql amazon-emr spark-dataframe

Registering Hive Custom UDF with Spark (Spark SQL) 2.0.0

Aug 23, 2022

apache-spark apache-spark-sql udf

What is the use of queryExecution in spark dataframe?

Sep 07, 2022

apache-spark apache-spark-sql

Apache Spark UDF that returns dynamic data types

Oct 25, 2022

scala apache-spark apache-spark-sql user-defined-functions

Spark lists all leaf node even in partitioned data

Nov 12, 2022

apache-spark amazon-s3 apache-spark-sql partitioning parquet

Joining two DataFrames in Spark SQL and selecting columns of only one

Aug 19, 2022

scala apache-spark apache-spark-sql

How to group by time interval in Spark SQL

Sep 22, 2022

sql apache-spark apache-spark-sql

spark dataframe drop duplicates and keep first

Aug 29, 2022

apache-spark dataframe duplicates pyspark apache-spark-sql

New posts in apache-spark-sql