Spark Processing 101...Aug 12, 2015 · Spark Context Starting point for working with Spark...

Spark Processing 101

September 10, 2015

Justin Sun

OverviewWhat is Spark?SparkContextResilient Distributed Datasets (RDDs)TransformationsActionsCode ExamplesResources

What is Spark?General cluster computing system for Big

DataSupports in-memory processingAPIs for Scala, Java, and PythonAdditional libraries:

Spark Streaming – Process live data streamsSpark SQL – SQL and Data FramesMLlib – Machine learningGraphX - Graph processing

Spark ContextStarting point for working with SparkSpecifies access to cluster or local machineRequired if you write a standalone programProvided as ‘sc’ by the Spark shellScala:

val conf = new SparkConf().setAppName("Simple App")

val sc = new SparkContext(conf)

Java: SparkConf conf = new SparkConf().setAppName("Simple App");

JavaSparkContext sc = new JavaSparkContext(conf);

Resilient Distributed Datasets (RDDs)Main abstraction in SparkFault-tolerantSupports parallel operationsCreate RDDs by

Calling sc.parallelize()Reading in data from an external source

Text file – sc.textFile() HDFS source Cassandra

TransformationsImmutable after creationEnable parallel computationsInput is an RDD, output is a pointer to an RDDCan be chained togetherArguments are functions or closuresLazy evaluation: Nothing happens until an

action is run

ActionsProgram is run when an action is calledExamples:

reduce()collect()count()first()take()

Visual TransformationsDataBricks Visual Guide to Spark

Transformations and Actions – http://training.databricks.com/visualapi.pdf map()filter()flatMap()

Code exampleshttp://spark.apache.org/docs/latest/quick-start.html

ResourcesSpark website – http://spark.apache.org/docs/latestQuick Start –

http://spark.apache.org/docs/latest/quick-start.htmlDataBricks Developer Resources –

https://databricks.com/spark/developer-resourcesSpark YouTube channel –

https://www.youtube.com/channel/UCRzsq7k4-kT-h3TDUBQ82-w

edX.org Online CoursesCS100.1X – Introduction to Big Data with Apache SparkCS190.1X – Scalable Machine Learning

Spark Processing 101...Aug 12, 2015 · Spark Context Starting point for working with Spark...

Documents

Transcript of Spark Processing 101...Aug 12, 2015 · Spark Context Starting point for working with Spark...

REPLACEMENT SPARK PLUGS Spark Plug Application Chart · REPLACEMENT SPARK PLUGS Spark Plug Application Chart ... EC Series Air-Cooled 1 ... REPLACEMENT SPARK PLUGS Spark Plug Application

Draft NIJ Standard 0101.07 Ballistic Resistance of … draft document specifies minimum performance requirements and test ... standalone documents, ... one or more loaded cartridges

Using Symbolic Execution to Improve the Runtime Management ... · Figure 2.5 Spark Standalone Architecture 13 Figure 2.6 Spark DAG Example 14 Figure 2.7 Apache Flink® - Stateful

SmartD70iD+ SmartD70iD Basic · 2018. 9. 6. · 5 standards. This document specifies functions of SmartID+ standalone Photo ID solution and of SmartID Basic both constructed on a

Writing Standalone Spark Programs - UC Berkeley AMP Camp

S U M M I T - Amazon Web Services... · Task2/Slide1 Task Dispatcher Spark Driver Spark Worker Spark Worker Spark Worker - Spark Driver provisioning - Task parameters - Spark Workers

Spark Platform Spark Core Spark Extensions Using … Platform Spark Core Spark Extensions Using Apache Spark About me Vitalii Bondarenko Data Platform Competency Manager Eleks 20 years

Radio receiver - · PDF fileThe standalone radio receiver is usually known in consumer electronics as a tuner. ... [9][10] Each spark produced ... paper tape by a siphon recorder at

Announces FY16 Results (Standalone & Consolidated), Form A (Standalone & Consolidated) & Auditors Report (Standalone & Consolidated) for the period ended March 31, 2016 [Result]

Learning Apache Spark with Pythonweb.utk.edu/~wfeng1/doc/pyspark.pdf · Spark runs on Hadoop, Mesos, standalone, or in the cloud. It can access diverse data sources including HDFS,

Websence Standalone

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel

Announces Q4 & FY16 Results (Standalone & Consolidated), Form B (Standalone & Consolidated) & Auditors Report (Standalone & Consolidated) & Results Press Release for the period ended

Learning spark ch10 - Spark Streaming

Standalone GORM

Announces Q4 & FY16 Results (Standalone), Form A (Standalone) & Auditors Report (Standalone) for the period ended March 31, 2016 [Result]

Standalone and Non-Standalone Beam Management for 3GPP NR ... · 1 Standalone and Non-Standalone Beam Management for 3GPP NR at mmWaves Marco Giordani, Student Member, IEEE, Michele

Announces Q4 & FY15 Results (Standalone & Consolidated), Form A (Standalone & Consolidated), Auditors Report (Standalone & Consolidated) & Results Press Release for December 31, 2015

Offline (Standalone) Mode - IN.govOffline (Standalone) Mode Evergreen—Standalone Interface / Offline Interface Courtesy DCPLEvergreen The terms “Offline Interface” and “Standalone

Nokia 5G Non-Standalone to 5G Standalone – made real WP EN