Cowboy dating with big data-AI-Ukraine-2019 · intro –partner 1. intro –partner 2....

COWBOY DATING WITH BIG DATA

DATA PLATFORM EVOLUTION IN ACTION

BORIS TROFIMOV

Big Data competence lead @ Sigma Software

Worked with Verizon/Yahoo/AOL, Collective

Cofounder of Odessa JUG

Passionate follower of Scala

Associate professor at ONPU

ABOUT ME

INTRO – PARTNER 1

INTRO – PARTNER 2

НАГРАДЫ PARTNER 2

• Медаль за Kotlin• Полный кавалер Spring & Spring Boot• Орден за взятие Kubernetes

LESSON 1 – SHARED STORAGE

EXPECTATIONS

PRODUCT

API FACADE

SHARED STORAGE

API FACADE

ГДЕрепортинг?

SHARED STORAGE

API FACADE

3rd PROVIDERS

SHARED STORAGE

PROS• Fast TTM• Relatively cheap from infra and cost perspective

CONS• Tight data and code cohesion• Different Scaling scenarios• Performance and Availability issues

SHARED STORAGE

API FACADE

DATA PLATFORM

3rd PROVIDERS

DATA PLATFORM

3rd PROVIDERS

SYSTEM EVENTS

API FACADEDATA PLATFORM

LESSON 2 – WEAK SCHEDULING

SCHEDULING

API FACADE

Data Platform

3rd PROVIDERS

SCHEDULING

DATA PLATFORM

3rd PROVIDERS

SYSTEM EVENTS

DATA PROCESSING SCRIPT

OLAPDATA PROCESSING SCRIPT

API FACADE

SCHEDULING

DATA PLATFORM

3rd PROVIDERS

SYSTEM EVENTS

CRONDQUARTZ

API FACADE

DATA PLATFORM

SCHEDULING

API FACADE

Data Platform

3rd PROVIDERS

КАКОЙ КРОНТАБ?

SCHEDULING

Use prod-ready schedulers§ Airflow§ Azkaban§ Oozie

§ Jenkins?

What we gain§ Identity control and Audit§ Job Lineage, Logging and Troubleshooting§ Tools to design Workflows/DAGs§ Fault Tolerance features (rerun etc.)

CHAPTER 3 –MONOLITHIC DATA PLATFORM

DATA PLATFORM

3rd PROVIDERS

SYSTEM EVENTS

Scheduler

OLAPAPI FACADE

DATA PLATFORM

3rd PROVIDERS

SYSTEM EVENTS

Scheduler

DATA PLATFORM

ПОЧЕМУ ОПЯТЬ

МОНОЛИТ?

API FACADE

DATA PLATFORM

DWH ANALYTICSREPORTING

DECOUPLING DATA PLATFORM

LOADINGEST

DATA PLATFORM

PROCESS

Scheduler

DATA PLATFORM

3rd PROVIDERS

SYSTEM EVENTS

DATA LAKE DWH

LOADINGEST

DATA PLATFORM

PROCESS

Scheduler

3rd PROVIDERS

SYSTEM EVENTS

DATA LAKE DWH

LOADINGEST PROCESS

ML TRAINING

DATA PLATFORM

ANALYTICS

ML RUNNING

Scheduler

3rd PROVIDERS

SYSTEM EVENTS

DATA LAKE DWH

LOADINGEST PROCESS

DATA PLATFORM

ML TRAINING

DATA PLATFORM

REPORTING

REPORTING ENGINE

ML RUNNING

Scheduler

REPORTING CACHE

REPORTING METADATA

SCHEDULED REPORTS

ANALYTICS

API FACADE

3rd PROVIDERS

SYSTEM EVENTS

DATA LAKE DWH

LOADINGEST PROCESS

ARCHITECTURE DECISIONS

§ Raw data should be stored inside Data Lake

§ Introduce granular reusable and testable steps inside pipelines [ingest, validate, enrich, aggregate etc.]

§ Separate pipeline per vendor/feed

§ Introduce Data Linage, easy troubleshooting

§ Separate concerns (Scalability, Fault Tolerance)

VENDOR-AGNOSTIC TECHNOLOGY STACK

§ Apache NiFi for data routing and ingestion

§ Apache Spark/Flink/Presto/Beam for processing

§ Kafka/Hive for Data Lake Storage

§ Hive/Memsql for DWH

§ Vertica/Redshift/Memsql/Clickhouse for OLAP

LESSON 4 AGGREGATE IT

INGEST

ПОЧЕМУ ТАК ДОЛГО

РАНЯТСЯ РЕПОРТЫ ???

API FACADE

Data Platform

3rd PROVIDERS

AGGREGATE IT

COMMON PITFALLS

§ Direct access to Data Lake or cold DWH

DATA PLATFORM

ML TRAININGINGEST

DATA PLATFORM

REPORTING

PROCESS

REPORTING ENGINE

ML RUNNING

AirFlow

REPORTING CACHE

REPORTING METADATA

SCHEDULED REPORTS

ANALYTICS

API FACADE

PROVIDERS

SYSTEM EVENTS

DATA LAKE / DWH

COMMON PITFALLS

§ Reports query RAW data

DATA PLATFORM

ML TRAININGINGEST

DATA PLATFORM

REPORTING

PROCESS

REPORTING ENGINE

ML RUNNING

AirFlow

REPORTING CACHE

REPORTING METADATA

SCHEDULED REPORTS

ANALYTICS

API FACADE

PROVIDERS

SYSTEM EVENTS

DATA LAKE DWH

INTRODUCE AGGREGATIONS

date hour user_cookie creative_id

05/21/19 03 4444444 123

05/21/19 03 5555555 321

05/21/19 03 6666666 321

05/21/19 04 7777777 567

impressions

creative_id campaign_id

campaigns

date hour campaign_id creative_id impressions

05/21/19 03 1 123 1

05/21/19 03 1 321 2

05/21/19 04 2 567 1

performance_ad

INGESTIONVALIDATION

ENRICHMENT

BATCH 1

HDFS/HIVE/...RAW FACT TABLE

BATCH 2

AGGREGATOR

HDFS/HIVE/…AGGREGATION TABLE

BATCH 1 BATCH 2

INGESTIONVALIDATION

ENRICHMENT

BATCH 1

BATCH 2

AGGREGATOR

BATCH 1 BATCH 2

BATCH 3

INGESTIONVALIDATION

ENRICHMENT

BATCH 1

BATCH 2

AGGREGATOR

BATCH 1 BATCH 2

BATCH 3

BREAK DOWN DOMAIN

DOMAIN DOMAIN

• Break down domain into business-concerned areas

• Cover area with dedicated aggregation

• Example For Video Platform • Ad performance• Player performance• Video performance• Revenue performance

• Build once, reuse between multiple reports

LESSON 5AVAILABILITY

AVAILIABILITY

API FACADE

Data Platform

3rd PROVIDERS

AVAILIABILITY

API FACADE

Data Platform

3rd PROVIDERS

ГДЕ МОИ РЕПОРТЫ?

THINGS EASY TO MISS

AVAILABILITY

§ If possible do not share infrastructure between DP with Core services

§ Chose wise between Kappa and Lambda architectures

§ Introduce effective monitoring

§ Know your data latency and design solution based on it

THINGS EASY TO MISS

FAULT TOLERANCE

§ Every job should be fail-ready and retry-able by design

§ Enable multiple attempts on scheduler side

§ Use idempotent sinks

§ Implement backpressure: Prefer Pull over Push, leverage Blob/S3/HDFS or Kafka

THINGS EASY TO MISS

EFFECTIVE MONITORING

§ Collect system and app-specific metrics

§ Measure data availability [ in-rate, out-rate, lag]Bandar-Log https://github.com/VerizonAdPlatforms/bandar-log/

§ Think about Datadog [local agents, dashboards, monitors, notes]

DASHBOARD EXAMPLE [INGESTION]

DASHBOARD EXAMPLE [AGGREGATIONS]

LESSON 6 – DATA GOVERNANCE

DATA GOVERNANCE

API FACADE

Data Platform

3rd PROVIDERS

API FACADE

Data Platform

3rd PROVIDERS

Я НАЙДУ ТЕБЯ НА ТОМ

СВЕТЕ!!!

DATA GOVERNANCE

DATA GOVERNANCE CHECKLIST

Did I think about Personal Data Protection?Did I think about Data Access Control?Did I think about Data Eviction?Did I think about Data Lineage?Did I think about Data Quality?Did I think about Data Inventory?

PERSONAL DATA PROTECTION

§Learn what Personally Identifiable Data (PID) is

§Think twice before storing any PID

§Anonymize data as soon as possible in ETL and prefer to use anonymized data over PID where never possible

§Introduce Anonymized Unique ID (AUID) and store relationship PID <-> AUID separately

DATA ACCESS CONTROL

§ Introduce IAM for components and developers inside Data Lake and DWHControl access to PID and anonymized data

§ Introduce ACL for end users inside OLAPLeverage OLAP features to support ACL -- per row, table, schema, database

DATA EVICTION

§ Design data and applications with evection enabled

§ Introduce data retention policy and schedule cleanup jobs

§ Separate data retention policy per raw and aggregation tables

§ Document retention policy

DATA LINEAGE

§ Shit happens

§ Shit will happen, think about it in advance

RECOMMENDATIONS

§ Each ETL step should persist its output with reasonable retention policy

§ Persist any application logs (Spark/Yarn, CMD apps, ETL, …)

§ Log any significant application decisions

§ Persist any provenance logs (NiFi, …)

DATA QUALITY

§ Introduce data validation [even if it is undefined] and track validation issues§ Schema errors (wrong type, missed mandatory field)§ Semantic errors (unknown or poorly formatted IDs)§ Business errors (certain business constraints per-event or cross-event)

§ Track any errors and expose metrics

§ Track discrepancies and expose metrics§ raw and aggregation data§ Discrepancy between real-time and batch§ Discrepancy between vendor data

DATA INVENTORY

§ Document how data organized

§ Document where data stored

§ Document what and where data exported

§ Document what and where data ingested

§ Document as granular as possible -- per vendor, data source, ETL component etc.

LESSON 7INTRODUCE

DATA ENGINEERING

SHARING RESPONCIBILITY TO DATA

Distinguish expertise

Involve Data Engineers to make Data Platform better and faster

THANK YOU

Cowboy dating with big data-AI-Ukraine-2019 · intro –partner 1. intro –partner 2....

Documents

Transcript of Cowboy dating with big data-AI-Ukraine-2019 · intro –partner 1. intro –partner 2....

Intro to Credit, Credit Analysis, and Credit Ratings-Ratings-2014.pdfNeri Bukspan Partner Ernst & Young Intro to Credit, Credit Analysis, and Credit Ratings November 6, 2014 . ...

Channel Partner Preparedness: Intro to Selling Cloud based Unified Com & Collab Solutions _ Required Competencies for Sellers

Тюнингуем письма: как из бида «базовой комплектации» сделать «полный фарш»?

Partner Intro Presentation (1) (1)

CLE4R Partner Training Segment 1. Intro to …user.engineering.uiowa.edu/~cs_proj/files_for_presentations_page...CLE4R Partner Training Segment 1. Intro to ... (emissions, chemical

Astra Logistic Ltd. полный комплекс аутсорсинговых услуг ...pharmaceuticals-forwarder.com/images/userfiles... · Astra Logistic Ltd. имеет Сертификат

Appsfunder Partner Intro

Мир полный звуков

этофраза, определяющаястильбренда . «Total look»Ÿрезентация... · Total Look, который позволяет купить полный

MACPLAS INTERNATIONAL...КАРЕТОЧНАЯ ТЕХНОЛОГИЯ ДЛЯ ОБЛЕГЧЕННЫХ КОЛПАЧКОВ 1881 ПОЛНЫЙ КОМПЛЕКС УСЛУГ 19 ПЛАСТМАССА

Intro to Windows Azure Antimo Musone Cloud Tour Owner Microsoft Student Partner Email: antimo.musone@studentpartner.comantimo.musone@studentpartner.com.

Меняйся с удовольствием Electric/Catalog...Меняйся с удовольствием Содержание Полный контроль над электроэнергией

Your Partner Throughout the Product Life Cycleextra.ivf.se/eqs/dokument/1. Intro to DfR Solutions_horizontal.pdfYour Partner Throughout the Product Life Cycle DfR lends a guiding hand

Контакты - Fairytale Wedding · 2019. 10. 5. · НЕПОЛНЫЙ ДЕНЬ ПОЛНЫЙ ДЕНЬ ФОТО+ВИДЕО fairytale wedding ПРОФЕССИОНАЛЬНАЯ ФОТО

Intro to the layar partner network may 2014

TEAM - Osborne Livestock EquipmentСистема team обеспечивает полный контроль воспроизводства всупоросный период, опороса,

CEPdownload.microsoft.com › ... › Case-Gazpromtrans-Offi… · Web viewКомпания «Газпромтранс» предоставляет клиентам полный спектр

Customer Results Solution Partner Intro 160824

(III этап) › problems › third › 3_etap_2017_theoretical_problem… · (iii этап) Теоретический тур 9 класс. 1. Полный комплект состоит

SINAMICS G120C - ADVENTA · 2017. 7. 4. · TIA Portal обеспечивает полный доступ к цифровой авто- матизации: от цифрового