Cassandra spark connector

@doanduyhai

Cassandra Spark Connector DuyHai DOAN, Technical Advocate

@doanduyhai

Who Am I ?!

Duy Hai DOAN Cassandra technical advocate •  talks, meetups, confs •  open-source devs (Achilles, …) •  OSS Cassandra point of contact

☞ duy_hai.doan@datastax.com ☞ @doanduyhai

@doanduyhai

Datastax!

•  Founded in April 2010

•  We contribute a lot to Apache Cassandra™

•  400+ customers (25 of the Fortune 100), 200+ employees

•  Headquarter in San Francisco Bay area

•  EU headquarter in London, offices in France and Germany

•  Datastax Enterprise = OSS Cassandra + extra features

Spark/C* Connector Architecture!

Token ranges reminder!Stand-alone cluster deployment!

Data locality!!

@doanduyhai

Spark eco-system!

Local Standalone cluster YARN Mesos

Spark Core Engine (Scala/Java/Python)

Spark Streaming MLLib GraphX Spark SQL

Persistence

Cluster Manager

@doanduyhai

Spark eco-system!

Local Standalone cluster YARN Mesos

Spark Core Engine (Scala/Java/Python)

Spark Streaming MLLib GraphX Spark SQL

Persistence

Cluster Manager

@doanduyhai

Data distribution!Random: hash of #partition → token = hash(#p) Hash: ]-X, X] X = huge number (264/2)

@doanduyhai

Normal token ranges!A: ]0, X/8] B: ] X/8, 2X/8] C: ] 2X/8, 3X/8] D: ] 3X/8, 4X/8] E: ] 4X/8, 5X/8] F: ] 5X/8, 6X/8] G: ] 6X/8, 7X/8] H: ] 7X/8, X]

@doanduyhai

Cassandra Query Language (CQL)!

INSERT INTO users(login, name, age) VALUES(‘jdoe’, ‘John DOE’, 33);

UPDATE users SET age = 34 WHERE login = jdoe;

DELETE age FROM users WHERE login = jdoe;

SELECT age FROM users WHERE login = jdoe;

@doanduyhai

Why Spark on Cassandra ?!

Fast disk access

Structured data (columnar format)

Multi data-center !!!

Cross-table operations (JOIN, UNION, etc.)

Real-time/batch processing

Complex analytics (e.g. machine learning)

For Spark

For Cassandra

@doanduyhai

Connector objectives!

Data locality Resources-efficient, performant Fluent & friendly API Object mapper

@doanduyhai

Cluster deployment!

C* SparkM SparkW

C* SparkW

Stand-alone cluster

@doanduyhai

Cluster deployment!

Spark Master

Spark Worker Spark Worker Spark Worker Spark Worker

Executor Executor Executor Executor

Driver Program

Cassandra – Spark placement

C* C* C* C*

@doanduyhai

Connector architecture – Core API!

Cassandra tables exposed as Spark RDDs

Read from and write to Cassandra

Mapping of C* tables and rows to Scala objects •  CassandraRow •  case class (object mapper) •  Scala tuples

@doanduyhai

Connector architecture – Spark SQL !

Mapping of C* table to SchemaRDD •  custom query plan •  CassandraRDD à SchemaRDD •  push predicates to CQL

@doanduyhai

Connector architecture – Spark Streaming !

Streaming data INTO Cassandra table •  trivial setup •  be careful about your Cassandra data model !!!

Streaming data OUT of Cassandra table •  fetch all data from table •  send each row as a DStream

@doanduyhai

Connector architecture!

All Cassandra types supported and converted to Scala types Server side data selection (SELECT … WHERE …) Use Java-driver underneath !Scala and Java support

@doanduyhai

Data Locality!

C* SparkM SparkW

C* SparkW

Spark partition RDD

Cassandra tokens ranges

@doanduyhai

Data Locality!

C* SparkM SparkW

C* SparkW

Use Murmur3Partitioner

@doanduyhai

Data locality!

Read/Write from/to Cassandra

Spark shuffle operations

@doanduyhai

Data Locality!

Remember RDD interface ?

abstract'class'RDD[T](…)'{'' @DeveloperApi'' def'compute(split:'Partition,'context:'TaskContext):'Iterator[T]''' protected'def'getPartitions:'Array[Partition]'' '' protected'def'getPreferredLocations(split:'Partition):'Seq[String]'='Nil'''''''''''''''}'

@doanduyhai

Data Locality!

getPartitions : 1.  fetch all token ranges and their corresponding nodes from C*

(describe_ring method)

2.  group token ranges together so that 1 Spark partition = n token ranges belonging to the same node

@doanduyhai

Data Locality!

def getPreferredLocations(split: Partition): Cassandra node IP corresponding to this Spark partition compute(split: Partition, context: TaskContext): read from Cassandra/write to Cassandra

Connector API & Usage!

Resources handling!Connector API!

Live demo!

@doanduyhai

Resources Handling!

Open connections to C* cluster Connections pooled (using Ref counting) on each executor Scala Loan Pattern

!connector.withSessionDo!{!! session!=>!session.execute("SELECT!xxx!FROM!yyy").all()!!}!

@doanduyhai

Connector API!

Connecting to Cassandra

!//!Import!Cassandra.specific!functions!on!SparkContext!and!RDD!objects!!import!com.datastax.driver.spark._!!!!//!Spark!connection!options!!val!conf!=!new!SparkConf(true)!! .setMaster("spark://192.168.123.10:7077")!! .setAppName("cassandra.demo")!! .set("cassandra.connection.host","192.168.123.10")!//!initial!contact!! .set("cassandra.username",!"cassandra")!! .set("cassandra.password",!"cassandra")!!!val!sc!=!new!SparkContext(conf)!

@doanduyhai

Connector API!

Preparing test data

CREATE&TABLE&test.words&(word&text&PRIMARY&KEY,&count&int);&&INSERT&INTO&test.words&(word,&count)&VALUES&('bar',&30);&INSERT&INTO&test.words&(word,&count)&VALUES&('foo',&20);&

@doanduyhai

Connector API!

Reading from Cassandra

!//!Use!table!as!RDD!!val!rdd!=!sc.cassandraTable("test",!"words")!!//!rdd:!CassandraRDD[CassandraRow]!=!CassandraRDD[0]!!!rdd.toArray.foreach(println)!!//!CassandraRow[word:!bar,!count:!30]!!//!CassandraRow[word:!foo,!count:!20]!!!rdd.columnNames!!!!//!Stream(word,!count)!!rdd.size!!!!!!!!!!!//!2!!!val!firstRow!=!rdd.first!!//firstRow:CassandraRow=CassandraRow[word:!bar,!count:!30]!!!firstRow.getInt("count")!!//!Int!=!30!

@doanduyhai

Connector API!

Writing data to Cassandra

!val!newRdd!=!sc.parallelize(Seq(("cat",!40),!("fox",!50)))!!!//!newRdd:!org.apache.spark.rdd.RDD[(String,!Int)]!=!ParallelCollectionRDD[2]!!!!!newRdd.saveToCassandra("test",!"words",!Seq("word",!"count"))!

SELECT&*&FROM&test.words;&&&&&&word&|&count&&&&&&999999+9999999&&&&&&bar&|&&&&30&&&&&&foo&|&&&&20&&&&&&cat&|&&&&40&&&&&&fox&|&&&&50&&

https://github.com/doanduyhai/Cassandra-Spark-Demo

DSE features!

@doanduyhai

Use Cases!

Load data from various sources

Analytics (join, aggregate, transform, …)

Sanitize, validate, normalize data

Schema migration, Data conversion

@doanduyhai

Without DSE!

C* SparkM SparkW

C* SparkW

@doanduyhai

With DSE!

C* SparkM SparkW

C* SparkW*

C* SparkW

Master state in C*

Spare master for H/A

@doanduyhai

Spark/Cassandra integration!

Master state •  saved in Cassandra

Integration •  packaging •  start-up script (dse –k) •  fine tuning for resources (CPU, memory …) •  more to come …

@doanduyhai

Multi-DC with Spark!

Workload segregation with virtual DC

Production (Live)

Analytics with Spark

Same physical DC

Async replication

Thank You @doanduyhai

duy_hai.doan@datastax.com

https://academy.datastax.com/

Cassandra spark connector

Technology

Transcript of Cassandra spark connector

Announcing Spark Driver for Cassandra

DataStax: Spark Cassandra Connector - Past, Present and Future

Spark/Cassandra Integration Theory & Practicedoanduyhai Spark/Cassandra Integration Theory & Practice DuyHai DOAN, Technical Advocate

Introduction to Cassandra • Why Spark - Apache Cassandra | Apache Kafka | Apache Spark · 2017. 12. 20. · • Introduction to Cassandra • Why Spark + Cassandra • Problem background

Cassandra & Spark for IoT

Big data analytics with Spark & Cassandra

Spark and cassandra (Hulu Talk)

Spark cassandra integration 2016

Performance Analysis of Spark using k-means · like Cassandra (Spark Cassandra Connector) and R (SparkR). With Cassandra Connector, you can use Spark to access data stored in a Cassandra

A GUIDE TO STRESS TESTING KAFKA, SPARK AND CASSANDRA … · Spark Workers. The nodes are named Spark-Cassandra-Master, Spark-Cassandra-Worker01 and Spark-Cassandra-Worker02. The Cassandra

Cassandra + Spark + Elk

Introduction to Cassandra • Why Spark + Cassandra ... · • Introduction to Cassandra • Why Spark + Cassandra • Problem background and overall architecture •Implementation

Cassandra Day 2014: Interactive Analytics with Cassandra and Spark

Harnessing Spark and Cassandra with Groovy

Using Spark over Cassandra

Intro to py spark (and cassandra)

StratioDeep: an Integration Layer Between Spark and Cassandra - Spark Summit 2013

Scotland Data Science Meetup Oct 13, 2015: Spark SQL, DataFrames, Catalyst, DataSources API, Spark Cassandra Connector, ORC, Parquet, JSON, CSV, REST, ElasticSearch, DynamoDB, RedShift,

Spark and Cassandra - GOTO Bloggotocon.com/dl/goto-cph-2015/slides/ArtemAliev_SolvingClassical... · Spark and Cassandra. Agenda: ... import org.apache.spark.mllib.regression.LabeledPoint

Spark with Cassandra by Christopher Batey