Cassandra advanced data modeling

CassandraAdvanceddata modeling

Lyon Cassandra UsersRomain Hardouin2016-05-31

$ whoRomain

$ pgrep -fl workCassandra architect

$ whatis teadsNo.1 Video Advertising Marketplace

I. Introduction

II. Key principles

III. Chebotko methodology

IV. Time handling

Data modeling

I. Introduction

Theory

Chebotko diagrams

II. Key principles

Know your data

DenormalizeKnow your queries

Key Principles

Nest DataDuplicate Data

Know your domain

Conceptual Data Model, E&R● Entities● Relationships● Attributes / Keys● Cardinalities● Constraints

Know your data

Entities & relationships

Know your data

Query-driven model

Application Workflow

New needs?● New queries => new tables● Alter table possible?

Know your data

Know your queries

Goal: one partition per query

Anti-pattern:● Table scan● Client joins (a.k.a multi-table)● Secondary index● Allow filtering

Know your data

Know your queries

Nest Data

Clustering columns

Collection columns

UDT columns

Know your data

Denormalize

Nest Data

Know your data

Denormalize

CREATE TABLE actors_by_video ( video_id uuid, actor_name text, character_name text, PRIMARY KEY ((video_id),

actor_name, character_name));

Duplicate data

Writes are cheap: « Joins on write »

Duplication occurs at different levels:● Table: Materialized views● Partition● Rows

Know your data

Denormalize

III. Chebotko Methodology

From « A Big Data Modeling Methodology for Apache Cassandra »From « A Big Data Modeling Methodology for Apache Cassandra »

Application workflowApplication workflow

Query workflow Query list

Chebotko DiagramChebotko Diagram

actors_by_video

video_id uuid Kactor_name text C↑character_name text C↑

CREATE TABLE actors_by_video ( video_id uuid, actor_name text, character_name text, PRIMARY KEY ((video_id), actor_name, character_name));

Chebotko DiagramChebotko Diagram

MR 1Entities & Relationships

MR 2Equality search attributes

MR 3Inequality search attribues

Chebotko mapping rules

MR 5Key attributes, uniqueness

MR 4Ordering attributes

↑↓

Chebotko mapping rulesChebotko mapping rules

Internet of ThingsDemo

Kashlev Data Modeler

IV. Time handling- Tombstones

- UPSERTs

Eventually consistency

No instant deletes

Deletes are writes

SSTables are immutable files

Writes are spread across many files

Goal: avoid to read too many* tombstones

* see tombstone_warn_threshold & tombstone_failure_threshold

- UPSERTs

TTLsTTLs

Data must be designed to be TTL'ed

tombstones

What we add?

TIMEdimension

- UPSERTs

UPSERTsUPSERTs

Same INSERT over and over again?

UPSERTs hide this behavior

What if… one day you want to add time

Questions?

Resources« A Big Data Modeling Methodology for Apache Cassandra »

- Artem Chebotko, Andrey Kashlev & Shiyong Lu - www.cs.wayne.edu/andrey/papers/TR-BIGDATA-05-2015-CKL.pdf

KDM- Andrey Kashlev- kdm.dataview.org

Cassandra advanced data modeling

Data & Analytics

Transcript of Cassandra advanced data modeling

Cassandra Summit: Data Modeling A Scheduling App

Cassandra NYC 2011 Data Modeling

Cassandra Design Patterns - Packt Publishing · Cassandra Design Patterns Sanjay Sharma Chapter No. 1 "An Overview of Architecture and Data Modeling in Cassandra"

Cassandra 3.0 advanced preview

DZone Cassandra Data Modeling Webinar

Cassandra advanced data modeling

Cassandra Data Modeling

Advanced Cassandra

Cassandra Data Modeling - Practical Considerations @ Netflix

Apache Cassandra Data Modeling with Travis Price

Cassandra Deep Diver & Data Modeling

Cassandra for the relational brain - Percona · A little Cassandra for the Relational Brain 1. Relational Modeling ... 'First in a three part series for Cassandra Data Modeling','v

Data Modeling for Apache Cassandra

A Big Data Modeling Methodology for Apache Cassandra

LNCS 8829 - Formal Modeling and Analysis of Cassandra in Maudepublish.illinois.edu/assured-cloudcomputing/files/2015/08/Formal... · Formal Modeling and Analysis of Cassandra in Maude

Cassandra Training Introduction & Data Modeling. 2 Aims Introduction to Cassandra By the end of today you should know: How Cassandra organises data How.

Advanced search and Top-K queries in Cassandra

Cassandra Training Modeling

Advanced Data Modeling with Apache Cassandra

Data Modeling for Microservices with Cassandra and Spark