实时OLAP数据仓库架构优化演进

张海雷@优酷土豆

提纲

最初的架构

Druid简介

Druid和其他OLAP的对比

使用Druid以后的架构

需求背景

为DSP的广告主提供实时多维分析报表

多维钻取 16个维度 22个metrics

海量数据 10亿量级

实时性延迟为分钟级别

多维下的UV 每天独立访客千万量级

最初的架构

日志收集

应用层

实时架构

实时采用预算维度组合的metric

维度组合作为Key，各项Metric按照一定格式拼装作为Value

问题一维度组合膨胀

穷举的方式预算各种组合。

维度的个数、组合稀疏程度以及基数

增加维度以后，有可能带来指数式的增长。

问题二如何支持Group By查询

Redis不支持Range Scan，支持前缀Scan，需要扫描整个HashTable

在应用层穷举维度组合，然后采用mget

问题三如何实现UV

Redis支持HyperLogLog

举个例子

假设有三个维度，每个维度的基数都是3。

维度A有A1、A2和A3

维度B有B1、B2和B3

维度C有C1、C2和C3

最差情况的维度组合：

D-3: ABC * 33

D-2: AB * 32 + AC * 32 + BC * 32

D-1: A * 3 + B * 3 + C * 3

总结:

增加维度，维度组合数量有可能是指数式增长

这只是最差的情况，现实数据的维度组合是稀疏。

离线架构

采用Hive将多种日志源的数据经过ETL以后写到mysql全维度的宽表

瓶颈以及挑战：全维度组合的数量

竞价

曝光

点击

Join Mysql宽表

架构-功能降级

由于预算所有维度的实现成本很大，功能降级。

选取固定（两级）的维度组合存放在Redis中

Mysql按照维度组合分表

缺点以及改进

增加维度以后，给存储容量以及计算量带来很大的挑战

Redis不支持Range Scan，Group By查询需要客户端穷举维度组合

Redis和Mysql异构数据库，实时和历史相结合的查询需要在应用层合并

使用HBase替换redis+mysql？

Druid？

缺点

改进

Druid是什么

Druid是开源的分析型时序数据库，为OLAP而生。

处理海量处理，可以扩展到PB级

亚秒级响应，实时导入，导入既可查询

高可用，分布式容错架构，可以做到永不宕机

列存储，高效压缩

支持高并发，面向用户的应用

Druid支持的查询

支持TimeSeries、GroupBy、TopN、Select等常用查询

适合星型模型，不支持大表之间的join，其lookup功能实现和维度表的join

支持聚合函数，count和sum，以及使用javascript实现自定义UDF

支持扩展Aggregator，阿里贡献了利用Bitmap实现精准的DistinctCount

支持近似查询

HyperLoglog 计算UV

DataSketches 计算UV以及留存分析

DimDim

数据格式

Druid数据由Timestamp、Dimension和Metric组成

Timestamp是特殊的Dimension

Roll-up

Roll-up是Druid的特性，其有力地保障了低延迟的响应时间。

Roll-up是在数据导入阶段时进行一次聚合，第一层聚合。

Roll-up过程类似做一次全维度的Group By：

优点:减少数据集的大小，甚至是百倍以上

缺点:不能查明细数据

GROUP BY truncate(timestamp), publisher, advertiser, gender, country :: impressions = COUNT(1),

clicks = SUM(click), revenue = SUM(price)

Druid高效的奥秘-数据布局

投放广告位曝光数点击数

C1 P1 17 10

C2 P1 31 21

C2 P2 29 14

C3 P2 30 17

C1 C2 C3

Dictionary

0 1 1 2 1000 0110 0001

Column Inverted Index

Bitmap

P1 P2 0 0 1 1 1100 0011

10 21 14 17上图只是示意，不代表真实结构

Druid高效的奥秘-BitMap 快速Filter

C1 C2 C3

Dictionary

0 1 1 2 1000 0110 0001

Column Inverted Index

P1 P2 0 0 1 1 1100 0011

Select Position ,sum (click) from table where cast=C2 group by Position

Step1: 根据过滤条件cast=C2,找到C2的字典值是1Step2: 根据字典值1找到bitmap Step3: 根据bitmap得到offset是1和2Step4: 根据Offset构建Cursor遍历Step5: 单次迭代 offset1得到Position是0，反查字典是P1，在click中得到21

10 21 14 17

投放

广告位

点击

Druid高效的奥秘-列存储和压缩

列存储

BitMap

Concise

Roaring

高效压缩

Dimension:

正排：字典编码、变长整数编码和按块压缩

倒排： BitMap

Metric：

按块压缩，默认64K，必须是2的整数倍，方便定位。

例如存储Long，那么sizePer=64K/8=8192

blockNum = index / sizePer;

blockIndex = index % sizePer;

Druid架构

Realtime

实时接收(拉取)数据，生成Segment

负责实时部分的查询

采用类LSM-tree的架构，对写友好，支撑高并发和高吞吐量的写入

内存增量索引采用ConcurrentSkipListMap

达到阈值以后，异步线程将内存增量索引持久化成倒排索引

达到Segment设定的时间粒度时，将这一时间段内的持久化索引合并成Segment

具体实现有Realtime Node和Indexing Service两种方式

Coordinator

负责协调Segment的均衡加载

动态均衡Historical节点的负载

根据用户指定的Load Rule加载指定时间段的Segment

Historical

Historical是查询的主力

从Deep Storage中拉取Segment，采用mmap的方式Load

Historical可以配置负载能力

Scatter/Gather 模型。查询时分发给多线程执行，每个Segment分配一个线程，然后再聚合。

Shared-Nothing架构，扩展性强

Broker

通过ZooKeeper获取TimeLine.

Scatter/Gather模型，把时间段的查询转化成Segment的查询分发给Historical或者RealTime

然后再在Broker层聚合

采用Http Restful API提供查询

自实现NettyHttpClient，异步Nio的方式

缓存查询结果

外部依赖

Zookeeper

LoadQueue，Coordinator分发Segment的实现是将Segment加到指定节点的LoadQueue

Coordinator的failover实现，利用Zookeeper的选主

时间轴，用于查询路由分发到指定的节点

Deep Storage 用于Segment的备份存储

HDFS、S3和Cassandra等

使用其他任何对象存储，自定义模块实现

Meta信息存储

其他关系型数据库，自定义模块实现

如何保障高可用

RealTime

RealTime Node 采用从Kafka中拉取数据的模式，不支持多副本，不能保障高可用

Indexing Service 实现了导入阶段多副本，保障高可用

Historical

采用多副本加载

Coordinator

主备模式，采用Zookeeper选主

Broker

利用Zookeeper的节点发现以及客户端负载均衡

Druid vs Elasticsearch

Druid在导入过程会对原始数据进行Roll-up，而ES会保留原始数据。

Druid专注于OLAP，针对数据导入以及快速聚合操作做了优化。

Druid不支持全文检索。

Druid vs. Key/Value Stores (HBase/Cassandra/OpenTSDB)

KV存储的通用方式：

① 预算所有可能的维度组合

② 在事件记录上进行Range Scan，所有的维度组合作为key，metrics作为value

缺点：

第一种，给空间和计算带来挑战，增加维度以后指数式增长。

第二种，所有的维度组合作为key ，Range Scan没有索引的话会扫描大量的数据

Druid vs SQL-on-Hadoop (Impala/Drill/Spark SQL/Presto)

SQL-on-Hadoop提供了执行引擎可以在多种数据格式上进行查询，它也可以查询Druid的数据

查询模式

Druid Scatter-Gather模型，算子下放，算子执行和存储在同一节点，broker只是聚合结果

SQL-on-Hadoop一般采用MPP，执行计划的不同算子分布在不同节点执行，增加数据序列化以及网络传输的开销

数据摄入

Druid 支持实时导入

SQL支持

Druid只支持单表，不支持大表之间的Full join

使用Druid以后-Lambda架构

日志收集

Hadoop ETL

Storm ETL KafkaReal Time

Hadoop Index

使用Druid以后-实时部分

Druid只支持单表，采用把多表预先Join成单表

每种日志维度冗余，采用Storm的Field Grouping把相同维度的不同日志连接在一起

Storm中在一定时间窗口内预聚合，减小Druid的压力

写入Kafka时采用Hash分区，使相同维度组合的数据落在同一分区

竞价

曝光

点击

join Kafka

使用Druid以后-性能表现

使用Druid以后-数据导入吞吐量

下图和上一页的响应时间不是同一张表，只是为了说明Druid数据导入的吞吐量

THANK YOU

实时OLAP数据仓库架构优化演进 -...

Transcript of 实时OLAP数据仓库架构优化演进 -...

实时OLAP数据仓库架构优化 演进 -...

Documents

Transcript of 实时OLAP数据仓库架构优化 演进 -...

并行数据仓库解决方案 - download.microsoft.comdownload.microsoft.com/documents/china/sql/201210/Big-Data-and-PDW... · 通过 Hadoop 扩展数据仓库： 两个用于连接

1. 公司介绍及数据库特性lib.njust.edu.cn/upload/635981289801875000.docx · Web viewSAGE期刊评估报告 材料科学数据库 (2015年2月) 目录 1. 公司介绍及数据库特性1

阿里数据库关键技术 - topic.it168.comtopic.it168.com/factory/DTCC2013/doc/a22.pdf · • 数据库自动扩容工具 • 淘宝mysql高可用 • 阿里mysql工具集 ...

中国科学引文数据库来源期刊列表（2019-202051 Chinese Journal of Chemical Engineering 1004-9541 核心库 52 Chinese Journal of Chemical Physics 1674-0068 核心库 53

GBase国产关系型数据库云服务方案 - IDCQUAN.com · NoSQL/MongoDB 访问GBase 8t 关系型数据库表 • 支持分布式查询：支持关系型数据和半结构化数据的关联

深度解密IEEE IEL数据库： 科研检索与学术投稿·±度解密IEEE IEL数据库... · 培训内容. ieee . 简介. iel . 数据库及. ieee xplore . 平台介绍. ieee

腾讯云数据库 MongoDB - mccdn.qcloud.com · 第二章 产品定义 2.1 云数据库介绍 于数德库MongoDB 怙腾挂于基亍全慡怲怴潜力憉开源NoSQL 数德库MongoDB

Neo4j图数据库概述 - codingisforeveryone.com.aucodingisforeveryone.com.au/wp-content/uploads/2019... · 与其他任何数据库所不同，Neo4j在存储数 据的同时存储数据之间的关联。

Oracle for SAP®...4 目录 编辑寄语 面向 SAP 的 Oracle Database 12c：面向应用优化的全新数据库技术和支持 用 Oracle 数据库选件和管理包为 SAP 客户实施数据管理基础设施

Oracle Database 10g 数据库管理－课堂练习 IICE%A2%CB%BC%CD%F8%C2%E7OCP_DBAII... · 2012-07-05 · Oracle Database 10g：为网格计算设计的数据库 1-7 数据库体系结构：概述

预览： Preview: Oracle 自治数据库 · 预览：Preview: Oracle 自治数据 ... 自治数据库消除了通用任务 Autonomous Database Removes Generic Tasks 9 DBA ... •客户指定维护窗口

AWS云上数据库迁移º‘上数据库迁移.pdf• XML DB • 透明磁盘加密 (TDE) • Oracle GoldenGate 11.2.1：运行 11.2.0.3/4 的 RDS Oracle BYOL 版本，还可与 TDE

中国科学引文数据库来源期刊列表（2019-2020111 International Journal of Automation and Computing 1476-8186 核心库 112 International Journal of Disaster Risk Science

RESSET 数据库 - lib.njust.edu.cnlib.njust.edu.cn/upload/635467199139970000.pdf · 数据词典与计算方法举例 标识与信息库中相关表（如lstkinfo）的注 股数变动历史

亿信 BI 数据分析展示平台 技术白皮书 · 象持久保存在数据库中，这种迁移工作是非常简单快速的。 2.3 数据库层 数据库层包括了用户已有的业务数据库和亿信bi

认识主界面 2 新建一个数据库 - Shandong University€¦ · 指定数据库文件的存储位置，并录入文件名。数据库文件扩展名为nel，为避免系统崩溃或重装系统时，导致数据

Journal Citation Reports2008/02/22 · Journal Citation Reports® 5 跨库检索 （Cross Search） 您可以在此跨库检索订购的和免费的学术资源。这些免费数据库包括：

智通科技 Smart...文件服务器：fastDFS 1.26.5 2.3 安装说明 1、JAVA运行环境安装。 2、数据库Mysql及缓存安装。 3、数据库mongodbDB安装 4、消息中间件安装

目录 - Navicat · 数据库 68 胅合 68 羣 68 函数 69 ... 关于 Oracle 数据泵 211 Oracle 数据泵导出 211 Oracle 数据泵导入 214 ... 模式分析（仅聁用于胔

第1章 使用Oracle设计关系数据库

实时OLAP数据仓库架构优化演进 -...

Transcript of 实时OLAP数据仓库架构优化演进 -...

并行数据仓库解决方案 - download.microsoft.comdownload.microsoft.com/documents/china/sql/201210/Big-Data-and-PDW... · 通过 Hadoop 扩展数据仓库：两个用于连接

1. 公司介绍及数据库特性lib.njust.edu.cn/upload/635981289801875000.docx · Web viewSAGE期刊评估报告材料科学数据库 (2015年2月) 目录 1. 公司介绍及数据库特性1

深度解密IEEE IEL数据库：科研检索与学术投稿·±度解密IEEE IEL数据库... · 培训内容. ieee . 简介. iel . 数据库及. ieee xplore . 平台介绍. ieee

腾讯云数据库 MongoDB - mccdn.qcloud.com · 第二章产品定义 2.1 云数据库介绍于数德库MongoDB 怙腾挂于基亍全慡怲怴潜力憉开源NoSQL 数德库MongoDB

Neo4j图数据库概述 - codingisforeveryone.com.aucodingisforeveryone.com.au/wp-content/uploads/2019... · 与其他任何数据库所不同，Neo4j在存储数据的同时存储数据之间的关联。

Oracle for SAP®...4 目录编辑寄语面向 SAP 的 Oracle Database 12c：面向应用优化的全新数据库技术和支持用 Oracle 数据库选件和管理包为 SAP 客户实施数据管理基础设施

RESSET 数据库 - lib.njust.edu.cnlib.njust.edu.cn/upload/635467199139970000.pdf · 数据词典与计算方法举例标识与信息库中相关表（如lstkinfo）的注股数变动历史

亿信 BI 数据分析展示平台技术白皮书 · 象持久保存在数据库中，这种迁移工作是非常简单快速的。 2.3 数据库层数据库层包括了用户已有的业务数据库和亿信bi

Journal Citation Reports2008/02/22 · Journal Citation Reports® 5 跨库检索（Cross Search）您可以在此跨库检索订购的和免费的学术资源。这些免费数据库包括：

第1章使用Oracle设计关系数据库