构建现代数据仓库解决方案 · 2019-07-10 · Amazon Redshift速度快...
Transcript of 构建现代数据仓库解决方案 · 2019-07-10 · Amazon Redshift速度快...
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
王友升,AWS 解决方案架构师
构建现代数据仓库解决方案
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
24%
15%
领导者 追随者
企业收入增长
分析需求演变
数据
每5 年
数据的增长速度比以往任何都快
15年
持续
数据平台需要
1,000x
规模
>10x
增长
数据比以往任何时候更有价值. 挖掘数据的组织相比其他组织能创造更多的业务价值
数据分析工具比以往任何时候都多
使用数据的人比以往任何时候都多
如何提供安全的访问与管理策略
数据访问
数据治理
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
传统分析如下
价格昂贵:巨额初始资本支出+每年1万美元/ 5万美元/TB
GB-TB规模[不适用于PB/EB]
关系型数据
由于成本问题,90%的数据被丢弃
OLTP ERP CRM LOB
数据仓库
业务智能
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
传统的数据仓库不能满足现代的分析需求
难以设置
难以管理
难以扩展
存在安全隐患或合规性差
黑暗数据
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
不同的查询分析引擎需要客户进行选择
用于快速连接、聚合的本地磁盘的分析能力
对非常大的非结构化数据集的分布式、向外扩展的处理
无服务器计算资源的无限、随需应变的弹性
传统DW 大数据系统 交互式查询服务
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
AWS数据仓库服务满足现代分析需求
OLTP ERP CRM LOB
数据仓库
业务智能
数据湖
100110000100101011100101010111001010100001011111011010001111001011001011
00100011000010
设备 网络 传感器 社交
目录
机器学习
DW查询 大数据处理 交互式 实时
数据仓库的分析能力
无服务器计算的无限可伸缩性
大数据系统的分布式处理
=+
+
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
EB规模
存储和分析关系型数据和非关系型数据
内置分析工具
成本高效• 在Amazon S3中以每月2.3美分的价格存储• 使用Amazon Athena以½美分/ GB扫描查询• 使用Amazon Redshift达到1,000美元/TB/年
数据共享• Amazon QuickSight:30分钟0.30美元AWS
SnowballAWS
Snowmobile
Amazon KinesisData
Firehose
Amazon Kinesis
Data Streams
Amazon S3
Amazon Redshift
Amazon EMR
AmazonAthena
AmazonKinesi
s Amazon Elasticsearch
Service
Amazon Kinesis
Video Streams
人工智能服务
Amazon QuickSight
AWS数据仓库和数据湖协同工作,支持所有分析工作负载
SUMM I T © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
应用Amazon Redshift 和Amazon Athena 使数据仓库现代化
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift
快速
为所有类型的分析工作负载获得更快的洞察时间,由机器学习、柱状存储和MPP驱
动
极强的扩展性 扩展数据湖 1/10成本
即使存在不可预测的分析需求和数据量,动态扩展可以
保证性能
以开放的格式分析Amazon S3数据湖中的数据,并将数据加载到Redshift的高性能
SSD中
每小时0.25美元起,通过自动管理任务节省成本,消除停机对业务的影响,低至每年每tb
1000美元
快速、简单、成本高效的数据仓库,可以将查询扩展到数据湖
使用SQL工具以开放格式(如Parquet、ORC和JSON)分析数据
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Athena
非常快
即使对于大型数据集也能提供交互式性能查询。Athena自动行执行查询,所以大多数结果会在几秒钟内返回。
开放强大 标准 立即开始查询 按查询付费
Athena无服务器化服务只需指定在S3中数据的位置,定义模式,就可利用内置的查
询编辑器进行查询。
Amazon Athena使用带有ANSI SQL支持的Presto,可以处理各种标准数据格式,包括CSV、JSON、ORC、
Avro和Parquet
使用Amazon Athena,您只需为运行的查询付费。您需要为查询扫描的每Tb数据支付5
美元。
Amazon Athena是一种交互式查询服务
使用标准SQL易于分析Amazon S3中的数据
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift Spectrum和Athena使您能够直接从Amazon S3数据湖查询数据
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
数据仓库服务
更多客户使用
Amazon
快速、可扩展、简单、成本高效
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift快速
“前文是否提到这款软件超快?我们用它作为hadoop的替代产品为我们的分析师提供分析服务。”
“在我们以往的大数据仓库系统中,对一年的数据运行一次查询大约需要45分钟,但使用Amazon Redshift,仅用了25秒。”
“……(Amazon Redshift)的表现令大家大吃一惊。我们通常看到50-100倍加速超过Hive”
“我们定期处理数十亿行数据集,并且在几小时内就能完成。未来几年,我们的数据量将轻松增长10倍以上。”
“我们发现,在各种工作负载下,性能提高了两倍。查询越复杂,性能改进就越高。”
“在调查了(Amazon) Redshift、Snowflake和BigQuery之后,我们发现(Amazon) Redshift在市场最佳价格点上提供了顶级性能”
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
100%
61%
113%
40%
REDSHIFT VENDOR 1 VENDOR 2 VENDOR 3
每小时查询TPC-H 3TB
每小
时查
询(
相当
于每
小时
Am
azo
n R
ed
shif
t搜索
量的
%)
采用数据仓库TPC – DS测试模型 3TB数据集,4节点集群
采用数据仓库TPC – H 测试模型3TB数据集,4节点集群
100%
82%
6%
34%
REDSHIFT VENDOR 1 VENDOR 2 VENDOR 3
每小时查询TPC-DS 3TB
每小
时查
询(
相当
于每
小时
Am
azo
n R
ed
shif
t搜索
量的
%)
© 2018 Amazon Web Services, Inc. 或其附属公司。保留所有权利。
Amazon Redshift 16倍速度提升高达
越高越好
越高越好
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift速度快基于机器学习的加速
Machine learning
机器学习预测查询的运行时间1
短查询按路线发送到快速队列2
如果查询结果不在缓存中,则执行查询,并缓存结果
3
工作原理:分析和
BI/仪表盘工具
计算节点 计算节点 计算节点
Amazon Redshift
结果缓存
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
缓存层
并发扩展
按需自动创建更多集群
即使有数千个并发查询,性能也始终保持快速
无需合并
快速扩展适用于不断变化的查询工作负载
新!
备份
Amazon Redshift S3快照
1
2 3
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
在需求高峰期间,并发扩展提供一致的快速性能
您的主集群每使用24小时,我们将为并发集群使用提供一个小时的信用。
超过97%的Amazon Redshift客户可以免费进行并发扩展。
针对用户活动的激增启用auto-
scaling
Redshift Redshift with auto-scaling
更高更好
每小
时查
询
© 2018 Amazon Web Services, Inc. 或其附属公司。保留所有权利。
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift可扩展
“通过Amazon Redshift,我们的小团队处理的数据量增加了十倍,同时减少了花在系统管理上的时间,为增值服务开发腾出了时间。”
“通过将Amazon S3数据湖与Amazon Redshift和Amazon Athena结合起来,我们能够为点击流数据建立高效、灵活的分析平台……通过这些变化,我们的数据存储更灵活,查询更加方便。
“使用弹性调整大小,我们可以自信地优化最佳性能,并通过配置集群来保持低成本,以便在需求超出通常的可变性窗口时按比例增加集群,在非高峰时间按比例减少集群。”
“Amazon Redshift Spectrum让我们可以扩展到几乎无限的存储空间,进行透明规模计算,并为用户提供超高速的结果。”
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift 弹性调整大小
向Redshift集群增加额外节点
繁忙时段快速运行查询
最小化转换时间
规模计算和按需存储
按比例放大和缩小只需几分钟
Amazon Redshift集群
Amazon Redshift S3快照
JDBC/ODBC
Leader节点
CN2CN1 CN3 CN4
备份
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift Spectrum
Amazon Redshift Spectrum查询引擎
跨Redshift和S3查询
Redshift数据
S3数据湖
将数据仓库扩展到S3数据湖,支持EB级数据查询分析能力
无需加载
计算和存储分离
直接查询存储在S3中的数据
Parquet、ORC、Avro、Grok和CSV数据格式
Unload to Parquet即将推出
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift简单
“使用Amazon Redshift and Tableau,公司任何人都可以设置自己喜欢的查询,包括用户对某个功能的反应、人口或地理分布的增长和不同领域的销售效果。”
“提供一种易于使用的机制来查询数据,具有快速统一的响应时间,便于分析师运行研究项目并进行深入分析……我们不需要预先分配资源,可以轻松地按比例增加以满足需求,然后按比例减少以提高效率。”
“这扇门被打开了,为任何人创建自定义指数表,让其可以立即进入,查看和评估我们的广告投放领域正在发生什么,这样的功能史无前例。”
“最近,我独自为iGaming行业建立了数据仓库。为此,我使用了Amazon Redshift的强大功能和灵活性,以及更广泛的AWS数据管理生态系统……无需通常需要的大型专家团队。”
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift智能维护
vacuum分析 WLM并发设置
自动自动 自动
像vacuum和analyze这样的维护过程将在后台自动运行
Amazon Redshift自动调整WLM并发设置,以提供优化的吞吐量。
致力于零维护
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift成本高效
“Redshift的年成本相当于数据仓库中一些较便宜的本地部署选项的年维护成本。”“45万个在线查询比以前的传统数据中心快
98%,同时降低了80%的基础架构成本。”
“大多数同类数据仓库解决方案每年将花费我们高达100万美元。相比之下,Amazon Redshift的总成本仅为10万美元,节省了约90%的成本”
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Red
shif
t采用
预留
实例
价格
计算
Amazon Redshift是极具价格竞争力的云数据仓库
性价比最高
根据1年预留实例(RI)价格
高达75%
$110,560
$560,640
$264,902
$944,941
REDSHIFT VENDOR 1 VENDOR 2 VENDOR 3
每年的价格
© 2018 Amazon Web Services, Inc. 或其附属公司。保留所有权利。
越低越好
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
安全内置
选择合规性认证*
10 GigE(HPC)客户VPC
内部VPC
JDBC/ODBC
计算节点
管理节点
网络隔离
端对端加密
与AWS Key Management Service集成
Amazon S3
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
广泛、深入的生态系统
数据集成 业务智能 系统集成商
SUMM I T © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
低风险的迁移
AWS提供了广泛的工具,可以方便、快速、安全地在AWS云之间移动数据
AWS Direct Connect
AWS Snowball
AWS Database
Migration ServiceAWS Storage
GatewayAmazon S3
TransferAcceleration
Amazon Kinesis Firehose
ISV Connectors
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
自助迁移到Amazon RedshiftAWS Database Migration Service
DMS免费使用6个月更多信息:https://aws.amazon.com/dms/free-dms/
“AWS Database Migration Service是我们见过的最令人印象深刻的迁移服务。”
Azure SQL Database
AWS DMS Amazon Redshift
2.关系型数据库
1.非关系型数据库
3.其他源
Amazon S3
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
在Amazon Redshift中运行存储过程
使用现有的存储过程并在
Amazon Redshift中运行。
Amazon Redshift将支持PL/pgSQL格式的存储过程,使您能够将现有的存储过程带到Amazon Redshift。
迁移到Amazon Redshift变得更容易!
在数据需要运行ETL、数据验证和自定义业务逻辑处提供运行存储过程的支持。
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
与系统和数据集成合作伙伴一起迁移
AWS合作伙伴带来了宝贵的技术专长和资源,帮助处理复杂的迁移项目
SUMM I T © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Sysco是销售、市场营销和分发食品的领导者。
挑战:
大量的数据分布于多个系统中。此外,维护本地部署EDW部署的成本高。
解决方案:
使用Redshift、S3、EMR和Athena将其本地部署解决方案迁移到云端。
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
数据湖分析
• Sysco是销售、市场营销和分发食品的领导者。
• 挑战:大量的数据分布于多个系统中。
• 将数据合并到一个S3数据湖中
• 数据科学家使用EMRNotebook、Athena和Amazon Redshift Spectrum分析业务
RedshiftETL过程
数据准备
从多个源获取原始数据
S3
RedshiftSpectrum
Athena
EMR
市场营销数据源
其他源系统 转换后的数据
S3
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Equinox Fitness从Teradata迁移到了Amazon Redshift
Maximilian(ELT脚本)
EMR上的
Spark
Redshift
S3
点击流
循环日志
俱乐部管理软件
应用程序
社交
Redshift Spectru
m
EMR
Athena
Equinox应用程序
第三方应用程序
从Teradata数据仓库迁移
用Redshift建立了DW,用S3建立数据湖
使用Amazon Athena、Amazon Redshift Spectrum和Amazon EMR分析数据湖
提高用户的工作效率,以更快地移动
Amazon Redshift的成本约为其原始Teradata维护和支持成本的20%
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
我们希望您喜欢今天的内容!也请帮助我们完成反馈问卷。
欲获取关于 AWS 的更多信息和技术内容,可以通过以下方式找到我们:
微信公众号:AWSChina
新浪微博:https://www.weibo.com/amazonaws/
领英:https://www.linkedin.com/company/aws-china/
知乎:https://www.zhihu.com/org/aws-54/activities/
视频中心:http://aws.amazon.bokecc.com/
更多线上技术活动:https://aws.amazon.com/cn/about-aws/events/webinar/
感谢参加 AWS 在线研讨会