apache-spark tutorials and guides

What is the relation between numFeatures in HashingTF in Spark MLlib and actual number of terms in a document?

Mar 11, 2023

oozie workflow spark launch job on a particular queue

Mar 11, 2023

apache-spark oozie oozie-workflow

Spark Dataset: Filter if value is contained in other dataset

Mar 09, 2023

java apache-spark apache-spark-sql apache-spark-dataset

Partial/Full-match value in one RDD to values in another RDD

Mar 09, 2023

scala apache-spark apache-spark-sql pattern-matching

object ml is not a member of package org.apache.spark

Mar 11, 2023

apache-spark sbt apache-spark-mllib

Joining Two Datasets with Predicate Pushdown

Mar 10, 2023

scala apache-spark hbase apache-spark-sql apache-phoenix

Converting string/chr to date using sparklyr

Mar 10, 2023

r apache-spark hive dplyr sparklyr

Merge list of lists in pySpark RDD

Mar 08, 2023

python apache-spark pyspark

How to use external (custom) package in pyspark?

Mar 10, 2023

apache-spark pyspark hadoop-yarn

read.json only reading the first object in Spark

Mar 09, 2023

json scala apache-spark

Spark - sortWithInPartitions over sort

Mar 10, 2023

apache-spark apache-spark-sql cassandra spark-cassandra-connector apache-spark-dataset

Caused by: java.lang.VerifyError: Failed to link com/fasterxml/jackson/databind/type/ReferenceType: Cannot inherit from final class

Mar 08, 2023

java mongodb apache-spark hdfs

How to load logistic regression model?

Mar 09, 2023

apache-spark apache-spark-ml

Spark/Scala - Project runs fine from IntelliJ but throws error with SBT

Mar 10, 2023

scala apache-spark intellij-idea sbt

Spark Multiple Joins Out Of memory Error

Mar 09, 2023

apache-spark join

Pyspark, Group by count unique values in a column for a certain value in other column [duplicate]

Mar 09, 2023

apache-spark pyspark

Pyspark: Reading JSON data file with no separator between objects

Mar 07, 2023

json apache-spark pyspark databricks amazon-kinesis-firehose

PySpark DataFrame: Change cell value based on min/max condition in another column

Mar 07, 2023

python apache-spark dataframe pyspark apache-spark-sql

How to use array_contains with 2 columns in spark scala?

Mar 09, 2023

scala apache-spark dataframe

Spark structured streaming query always starts with auto.offset.rest=earliest even though auto.offset.reset=latest is set

Mar 08, 2023

scala apache-spark kafka-consumer-api spark-structured-streaming

New posts in apache-spark