大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 •...

49
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 大数据技术与应用

Transcript of 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 •...

Page 1: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

大数据技术与应用

Page 2: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

议程 Oracle大数据解决方案概览

面向政府行业的典型应用场景

政府设备监管大数据(GPS/北斗/城市交通)

公安大数据

智慧城市/城市大数据运营中心

Page 3: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

媒体/娱乐观众/广告效果交叉销售

通信

基于位置的广告

教育与科研

实验传感器分析

零售/快速消费品舆情分析热卖产品优化的营销

医疗卫生

患者传感器、监视、EHR医护质量

生命科学临床试验基因组

高科技/工业制造

制造质量保修分析

石油与天然气钻探传感器分析

金融服务

风险和投资组合分析新产品

汽车

报告位置和问题的汽车传感器

游戏

适应玩家行为

游戏植入广告

执法和国防

威胁分析 — 社交媒体监视、照片分析

旅游与运输

用于实现最佳交通流量的传感器分析

客户意见

公用事业

分析网络容量的智能量表

当前大数据使用场景示例

联机服务/社交媒体人职匹配Web 站点优化

这种数据的主要特点是什么?

数据量、高速度、多样性

这些特点给您现有架构带来挑战

Page 4: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

大数据时代的挑战

• 新数据– 行为数据/社交数据/传感器数据等

• 新的数据应用– 如何在传统数据/新数据/外部数据/互联网数据的大数据浪潮中发现数据的价值,创新性数据应用,推动业务发展

• 新的数据平台– 已有的应用系统如何利用新的分布式计算技术

– 新技术落地,为新的数据应用提供新的平台支撑

Page 5: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

表联接复杂性

数据更新模式 模式复杂性

总数据量

响应速度单位作业数据量

处理自由并发作业

大数据分析

传统RDBMS

通用数据处理

1000

结构化仅追加 非结构化事务性

100 个表

交互式

批处理

100 PB

10 PB

1 PB

100 TB SQL

100 TB 批处理

10 PB

1 PB

100 PB

了解数据和应用的特征

Page 6: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

打造您的大数据架构

逐步扩展现有架构,满足大数据要求:

第 1 步:发掘现有数据处理能力

第 2 步:更深入地分析当前数据

第 3 步:针对数据多样性和数据量进行设计

第 4 步:针对数据产生的高速度进行设计

第 5 步:发现新模式

提高 数据的业务价值

Page 7: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Oracle 的大数据解决方案

Oracle No SQL Database

ClouderaHadoop

Oracle Big Data Connectors

Oracle Advanced Analytics

SQL

Oracle Business Analytics Foundation Oracle Exalytics

Oracle Big Data Appliance Oracle Exadata

Page 8: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

数据生成/采集 数据组织/存储 数据分析、可视化、应用

操作型应用

多数据源、巨量数据、模式灵活、数据稀疏、数据探索

固定模式、数据关联、高密度、多维分析

File Systems

Transaction (Key-Value)Stores

HadoopSolution Stack

DBMS (DW)

DBMS (OLTP) ETL

BI&Visualization

Tools

Streaming

BI&Visualization

Tools

Integration

分析、探索型应用

Oracle目标:建设一个更加完整的数据平台

传统数据库的架构升级

分布式数据平台的补充

实时流式计算的兴起

In-DBAdvanced

Analytics

数据科学的广泛应用

Page 9: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Oracle Big Data Appliance高性价比的高性能 Hadoop 一体机

最高性能的预优化 Hadoop 一体机

‒ 同类产品中最佳的优化软件集成

到 Exadata 的超快连接能力: 15TB/Hour

‒ 分区与非分区;在线与离线数据装载

预先集成优化的软件系统

‒ Linux, Java VM, Cloudera Distribution of Hadoop

‒ Oracle R Distribution & NoSQL Database

‒ Oracle Big Data SQL

从小配置起步逐步扩展,处理能力与存储同步提升

Page 10: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

• 软件部分• Oracle Linux / Oracle JDK

• Cloudera Hadoop Distribution

• Cloudera Manager

• Cloudera Impala, Search, Navigator, HBase & BDR

• Oracle NoSQL Community Edition

• Open-source R distribution

• Oracle Big Data SQL• Oracle Big Data Connector

• ODI Adapter for Hadoop

• Oracle Loader for Hadoop

• Oracle Direct Connector for HDFS

• Oracle R Conenctor for Hadoop

• 硬件部分• 18 台数据服务器

• 每台2 CPUs * 8核

• 每台64 GB内存(可扩展至512GB)

• 每台12块4TB SAS盘

• 网络部分• 40Gb InfiniBand

• 10Gb 以太网

Raw Storage: 864T

Core Count: 288核

Mem Count: 1152G (可扩展至9216)

Big Data Appliance – X4-2

33%More storage

Page 11: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

大数据机性能比较

2

0

5

10

大数据机 自制Hadoop 集

时间

(小

时)

0

5

10

大数据机 基于云的

Hadoop

时间

(小

时)

处理大批量转换作业的速度比定制的20 节点 Hadoop 集群快 6 倍

标记和解析文本文档的速度比 30 节点Hadoop 集群快 2.5 倍

Page 12: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

• 功能强大,高性能SQL on Hadoop–完整的Oracle SQL能力on Hadoop

–在Hadoop节点上执行SQL查询处理

• Hadoop 和Oracle数据库简单数据集成–单SQL入口访问所有的数据

–在Hadoop和关系型数据间可扩展连接

• 优化的硬件–在Hadoop和Exadata间高速Infiniband网络带宽

ORACLE 大数据SQL –全新的架构

RelationalHadoop NoSQL

SQL

Page 13: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

NoSQL 与关系型数据库比较

Page 14: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

预处理和加载

快速高效

在线和离线模式

将数据加载至 Oracle 数据库Oracle Loader for Hadoop

SHUFFLE/SORT

SHUFFLE/SORT

REDUCE

REDUCE

REDUCE

MAP

MAP

MAP

MAP

MAP

MAP

REDUCE

REDUCE

Page 15: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

对 HDFS 的 SQL 访问

外部表视图

数据查询或导入

Native Oracle Loader Interface

并行并自动的负载平衡

从 Oracle 数据库直接访问Oracle SQLConnector for HDFS

DCH

外部表

DCHDCH

SQL 查询

InfiniBand

HDFS 客户端

HDFS Oracle 数据库

Page 16: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Oracle Exalytics

内存中分析软件

Essbase

适用于 Exalytics 的 TimesTen

自适应内存工具

1 TB RAM

40 个处理内核高速联网

内存中分析硬件Oracle BI Foundation Suite

该内容仅供参考,不构成对任何特性或功能的开发、发布和时间安排的承诺。

Page 17: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

分类

关联规则

聚类

属性重要性

难题 算法 适用性传统统计技术

流行/规则/透明度

嵌入式应用程序

宽泛/狭窄的数据/文本

最短描述长度 (MDL)

属性精简识别有用的数据减少数据噪声

分层 K 均值

分层 O 聚类

产品分组文本挖掘

基因和蛋白质分析

Apriori购物篮分析链接分析

多重回归 (GLM)支持向量机

传统统计技术

宽泛/狭窄的数据/文本回归

特性提取 非负矩阵因式分解

文本分析特性精简

Logistic 回归 (GLM)决策树贝氏支持向量机

一类 SVM 缺少目标领域的示例异常检测

A1 A2 A3 A4 A5 A6 A7

F1 F2 F3 F4

Oracle Advanced Analytics SQL 数据挖掘算法R

Page 18: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

电信 消费品 金融服务 公共部门

客户分析

客户保留(流失)

客户细分、客户特征分析和行为分析

产品组合分析(捆绑)

客户交互优化

客户分析

客户细分和特征分析

市场组合分析

客户交互优化

购物篮和行为分析

客户和企业分析

收入预测

购物篮分析

信用风险/策略分析(账龄分析)

保险欺诈防范

支出和公众分析

支出预测

欺诈识别

安全/智能分析

客户分析

经济指标预测

石油天然气 医疗保健和生命科学 媒体 观光

勘探和生产 + 分布分析

需求预测

质量控制

预测性资产维护

地震数据的大数据分析

收入优化

分布优化

患者和企业分析

患者疗效分析

药物开发

转化研究(个性化医疗)

收入和需求预测

分配和补货优化

广告分析

广告优化

营销优惠优化

收入预测

广告

价格优化

实时优先级分配

来宾分析

细分、获取、保留、交互优化

资产绩效分析

娱乐场楼层布局优化

收入预测和优化

HR 欺诈防范分析

高级分析简介

Page 19: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

原生 R MapReduce

原生 R HDFS 访问

无需 R 用户学习其他 API 或语言

无需管理员学习 R 即可在生产环境中调度 R MapReduce 模型

更高的效率

更快的速度、可扩展

使用 R 引擎进行大数据分析Oracle Enterprise R

客户端主机

R 引擎

HDFS分布式文件系统

R 引擎

MapReduce节点

Oracle 大数据机

Oracle Exadata

R 引擎

ORCHORCH

Page 20: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

快数据实时在线分析

Big Data

分钟毫秒

Fast Data

His

tori

cal

dep

th:

deep

His

tori

cal

dep

th:

sh

allo

w

例如:

分析交通模式和城市规划的拥堵时间

例如:

交通摄像头监测,以确保给定的车牌没有被使用在多个

车辆上 合并快速的数据流计算与MapReduce的输出

加深分析结果

Page 21: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

In-Memory, Continuous Queries (CQL)Extensible and Configurable Event Processors

CAT CATERPILLAR D 22.5 600 20080305 10:03:03:46

DO DUPONT D 41.575 3000 20080305 10:03:04:12

AA ALCOA INC D 20.125 1000 20080305 10:03:01:55

AXP AMER EXPRESS CO D 45.875 500 20080305 10:03:02:10

BA BOEING D 77.575 800 20080305 10:03:02:78

……

• 在内存(非数据库)中运行的连续数据查询

• 强大和潜在无限的可扩展性数据容器

CAT CATERPILLAR D 22.5 600 20080305 10:03:03:46

DO DUPONT D 41.575 3000 20080305 10:03:04:12

AA ALCOA INC D 20.125 1000 20080305 10:03:01:55

AXP AMER EXPRESS CO D 45.875 500 20080305 10:03:02:10

BA BOEING D 77.575 800 20080305 10:03:02:78

CAT CATERPILLAR D 22.5 600 20080305 10:03:03:46

DO DUPONT D 41.575 3000 20080305 10:03:04:12

AA ALCOA INC D 20.125 1000 20080305 10:03:01:55

AXP AMER EXPRESS CO D 45.875 500 20080305 10:03:02:10

BA BOEING D 77.575 800 20080305 10:03:02:78

BA BOEING D 77.575 41.575

800

20080305 10:03:02:78

DO DUPONT D 41.575 3000 20080305 10:03:04:12

COMPLEX QUERIES

• 事件处理输出

• 过滤

• 符合特定的条件新的流过滤,例如股票价格> $22

• 关联和聚集

• 滚动的,基于时间窗口的指标,例如在最后一小时的股票交易平均笔数

• 模式匹配

• 通知检测到的事件模式,如价格变化,A、B和C在15分钟的窗口发生

Page 22: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

为什么选择Oracle大数据体系?• 全面的大数据解决方案+众多的客户实践

– BDA + Exadata + Exalytics+云应用

• 软硬一体预集成– 软硬一体,工程化调优

– 全集成系统,完整机柜,插电即用

– Infiniband

• 全套商业支持– 开源软件商业支持 Hadoop

– 操作系统商业支持 Linux

– 硬件商业支持 Sun x86

• 品牌优势– Oracle + Cloudera

Page 23: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

交易大数据

订单、物流、金融业务等

行为/交互大数据

用户浏览记录、用户日志、电话记录、GPS轨迹、

电表计费、传感器数据等

高并发明细实时查询

用户详单、账户明细、用户收藏、车牌查询、LBS位置

查询等

非结构化数据处理

电子病历、微博社交、舆情分析、搜索引擎等

大数据存储

交通视频存储、卫星图像、气象数据、等

海量大数据计算

公安犯罪嫌疑人碰撞、同行车同行人、数据

仓库预处理、数据统计和报表等

大数据通用方向RDBMS / Sharding

Hadoop / NoSQL / RDBMS / Sharding

Text / NLP / Search Engine

Distributed File System/ NoSQL / RDBMS

Hadoop / MapReduce / In Memory

NoSQL / RDBMS / Sharding

大数据业务大数据共享大数据挖掘大数据分析大数据模型大数据打通大数据开发

推荐系统

RDBMS

Hadoop

NoSQL

Data Visualization

Model

ETL

Data Mining

Data Discovery

………

Page 24: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

对大数据建设的观点

• 大数据给我们带来的真正机遇是把许多信息碎片拼起来,为我们的决策服务。

• 大数据时代最大的挑战是如何从大数据中获取“价值”。从大数据中获取最大价值,需要探索式的研究方法。大数据环境中,数据科学家职责会产生,这种科学家既要熟悉商业环境,也要有操作层面的知识。

• 在大数据出现以前,数据依附于具体业务而存在,人们更多的关注在使用数据的软件系统上。在大数据时代,数据可以作为一种独立的存在,数据的“资产”性价值越来越引起人们的重视。

• 大数据价值链的三个C即(Collect—收集、Consolidation—整合、Consumptions—消费)。对大数据技术进行规范是问题的关键。从强调监管大数据的收集,转向重点监管大数据的实际使用。

Page 25: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

大数据时代的应用模式的转变

• 应用模式:应用驱动数据驱动

• 处理方式:关联分而治之

• 数据准确度:定量定性

• 数据价值:已知领域探索式、未知领域

• 关键角色:应用架构师数据科学家

• 数据安全:谁使用谁负责

Page 26: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

议程 Oracle大数据解决方案概览

面向政府行业的典型应用场景

政府设备监管大数据(GPS/北斗/城市交通)

公安大数据

智慧城市/城市大数据运营中心

Page 27: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

大数据行业应用

27

应用可能性

电信

政府(公共事业)

交通

金融

医疗

教育

能源(电力/石油)

• 纵轴契合度:

表示该用户的IT应用特点与大数据特性的契合程度;

• 横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;

• 注:

该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值

High

Mid

Low

Low Mid High

优先关注行业用户

应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。

值得关注行业用户

应有特点与大数据的契合度及应用可能性综合较高

适当关注行业用户

两个维度暂时都不具备优势,可适当给予关注

互联网(电子商务)

契合度

流通零售

制造

Page 28: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

中国政府对大数据的重视•2012年12月,国家发改委数据分析软件开发和服务列入专项指南;2013年科技部将大数据列入973基础研究计划;2013年度国家自然基金指

南中,管理学部、信息学部和数理学部将大数据列入其中。北京成立“中关村大数据产业联盟”。政府和科研机构高度关注大数据

•2012年12月,广东省启动了《广东省实施大数据战略工作方案》。 2013年上海市科委发布了推进大数据研究与发展的三年行动计划;2013

年7月,重庆市人民政府发布关于印发重庆市大数据行动计划的通知。浙江省交通运输厅宣布,将大数据引入交通管理,助力道路治堵;

各地政府正在探索大数据与政府

管理和发展之间的关系

•2012年10月,北京市各政务部门共同参与推出了北京政务数据资源网。上海智慧岛数据产业园、秦皇岛开发区数据产业基地、中国国际电子

商务中心重庆数据产业园等一批数据产业园区,

•2012年12月,陕西启动建设“中国首个专业大数据产业园区”—沣西新城大数据产业园。

各地政府大数据项目推出和产业

园开始建立

•国家旅游局大数据平台,交通部全国营运车辆联网联控系统,交通部全国道路运政管理信息系统都已经在进行

•2013年11月19日,国家统计局与阿里、百度等11家企业签署了大数据战略合作框架协议,共同在分享、开发、利用大数据方面进行合作,以推动大数据在

政府统计中的应用,促进大数据实现大价值,使之更好地服务于社会。

国家部委大数据项目启动

•2014年春节期间,中央电视台新闻频道推出“数据说春节”栏目,结合春运、年货、年夜饭等话题,通过网络运营商的大数据支持,将大数据

以老百姓能看懂的方式,展现在千家万户的电视屏幕上,可以说是大数据技术在公共领域应用的一次有益尝试。

政府权威媒体聚焦大数据,大数

据走入寻常百姓生活

Page 29: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

议程 Oracle大数据解决方案概览

面向政府行业的典型应用场景

政府设备监管大数据(GPS/北斗/城市交通)

公安大数据

智慧城市/城市大数据运营中心

Page 30: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

交通部全国重点营运车辆联网联控

虽然交通事故呈下降的趋势,道路运输安全形势依然严峻。

两客一危重点营运车辆监控(危险品运输、旅游包车和长途客车)

各地车辆动态监控系统相对独立,缺少统一标准,无法实现跨区管理和数据共享。

交通运输部道路运输司

- 全面实施驾驶员素质教育工程;

- 强化运输企业安全生产责任主体;

- 严把运输车辆技术关;

- 加强对客运站的安全源头管理;

- 加强重点时段和重点地区的安全监管;

- 加强重点营运车辆动态监管,实现联网联控。

Page 31: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

交通部全国重点营运车辆联网联控

Page 32: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

交通部全国重点营运车辆联网联控

全国2千万+营运车辆 ,入网仅300万+

每隔15秒采集一次GPS数据

每天8亿条数据

每月3T数据量

Page 33: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

重点营运车辆联网联控系统架构

动态信息数据库

车载监控预警技术

Oracle10g数据库

车辆信息管理

驾驶员信息管理

危险品信息管理

车辆监控预警

决策支持模块

信息发布模块

空间数据

属性数据

静态信息数据库

GIS应用组件Oracle10g引擎

其他组件 通信模块ARCSDE引擎

数据服务层

应用服务层

功能层

RFID技术

Page 34: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

交通部全国重点营运车辆联网联控二期

Page 35: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

交通部全国重点营运车辆联网联控Oracle解决方案

Oracle Service BusOracle Event Process

Oracle Data Integrator

Oracle GoldenGate

Oracle Big Data Appliance (MR/R)

Oracle Exadata (OAA)

Oracle ExadataOracle Spatial

Page 36: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

该解决方案同样适用于其他政府机构

交通部(陆路/水运/海运)

铁路局

公安交管局(城市交通)

北斗卫星

教育部(校车)

水利水文监测

……

行政上承担行业监管责任

拥有巨量的设备设施

产生巨量的机器数据

实时性要求比较高

Page 37: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

议程 Oracle大数据解决方案概览

面向政府行业的典型应用场景

政府设备监管大数据(GPS/北斗/城市交通)

公安大数据

智慧城市/城市大数据运营中心

Page 38: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

大数据在公安的应用场景大数据场景 满足的业务需求 解决方案 用户场景

交管局车辆车牌数据存储和组织,交管局车牌数据实时查询,交管局车辆数据分析

所有摄像头每天拍摄的车牌数据巨大,非常琐碎,单个价值密度非常低,实时查询某个特定车牌的相关活动,分析具备某类特定活动行为的车辆数据分析,城市交通状况,路网优化等

Oracle NoSQL DB / Hadoop MR / HadoopMahout

每天快速存下城市几万个摄像头拍摄下来的几十亿个车牌数据,卡口犯罪车辆识别,套牌车识别等,电子围栏、超速分析、疲劳驾驶、犯罪嫌疑车辆跟踪,城市交通状况,路网优化等

公安网络监管系统 一个中等城市每天网络监管数据量在10T以上,同时需要对这些各种各样的数据进行复杂的计算、关联和分析

Oracle DB / HDFS / HBase / Hadoop MR

分析几亿网民中可能嫌疑的犯罪行为,在各种账号中间发现犯罪分子的蛛丝马迹等等

公安技侦系统 公安技侦有大量的非结构化数据继续进行高效高性能的分析和处理

HDFS / Hadoop MR

分析话单记录获得犯罪分子的活动圈,犯罪分子指纹或者面部识别等

公安综合资源查询 公安各大警种巨量数据之间的高效快速廉价的交叉查询和关联查询

Oracle DB / Hadoop / MapReduce

某库几十亿条数据与另外某库几十亿条数据进行关联查询

公安刑事专案系统 分析案件和犯罪嫌疑人的特点并作出犯罪预测,合理安排警力,提前阻止犯罪

Oracle DB + OAA + Hadoop + R

公安犯罪预警

平安城市/智慧城市 支持全结构大数据存储、查询、处理和分析新一代数据平台

Oracle DB + Hadoop + NoSQL

智慧城市

公安大情报系统 …… …… ……

Page 39: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

分布式数据平台的补充 – 大数据时代的公安大数据模型特性灵活的、非预定义的、非固定模型的、垂直水平双向扩展的

犯罪疑犯表

网络社交圈子

宾旅馆入住表

车辆信息表

电话通讯记录表

Derived MetricsCommon across some systemse.g. Sentiment Score, AvgResolutionTime, Customer Satisfaction

Unique Dimensions or MetricsCustomer type, Age, Profitability, Fidelity

Unique Dimensions or MetricsThemes, Competitors , Klout

Table-free = 不需要过度架构、自适应、灵活的数据探索架构

全局信息身份证ID,姓名,出生年月,联系电话,QQ号等

Global MetricsCommon across some systemse.g. Cost, Count

违法犯罪人员信息

被盗抢汽车信息资源库

安全重点单位信息资源库

人口基本信息资源

出入境人员资源库

吸毒人员库

银行,税务社保等其它外部信息

网络实名制库

网聊和社交媒体记录库

手机短信/通话库

娱乐场所从业人员

宾旅馆住宿人员库 机动车/驾

驶人信息库

警员基本信息资源

在逃人员信息资源

违法犯罪人员信息

公安大数据模型

Page 40: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

议程 Oracle大数据解决方案概览

面向政府行业的典型销售场景

政府设备监管大数据(GPS/北斗/城市交通)

公安大数据

智慧城市/城市大数据运营中心

Page 41: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

智慧城市

2014年完成的任务——推动建立统一的信用信息平台,逐步纳入金融、工商登记、税收缴纳、社保缴费、

交通违章等信用信息。

2017年完成的任务——基本建成集合金融、工商登记、税收缴纳、社保缴费、交通违章等信用信息的统一

平台,实现资源共享。

——摘自2013.3.26《国务院机构改革和职能转变方案》任务分工通知

智慧城市的建设包括对城市公共信息平台的建设,指建设能对城市的各类公共信息进行统一管理、交换的

信息平台,满足城市各类业务和行业发展对公共信息交换和服务的需求。

——来自2012.12《国家智慧城市(区、镇)试点指标体系》

目前国际上数字地球、智慧地球、物联网快速发

展,竞争非常激烈,要加快科技攻关、攻坚步伐,打造

数字中国、智慧中国。

——李克强2011.5.23视察中国测绘创新基地讲话

Page 42: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

智慧城市的灵魂 – 大数据

政府服务 智能交通能源、水与公共设施

卫生保健 公共安全 教育

视频数据

日志数据

通信数据

仪器仪表

社交媒体

地理信息

医疗数据

大数据融合

人口信息

Page 43: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

智慧城市 --- 一平台二中心三体系

城市物理基础设施

公共配套支撑体系 IT运营支撑体系 信息服务产业体系

多渠道互动 用户体验管理 移动终端接入

城市规划&发展

产业创新&发展

政府集约&服务

民生创新&体验

城市数据运营中心

城市云计算中心

公共城市服务平台

三体系

Page 44: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

城市大数据运营云中心

一平台 公共城市服务平台

二中心

城市大数据运营中心

三体系

城市云计算中心

公共配套支撑体系

IT运营支撑体系

信息服务产业体系

•集中城市公共数据,服务于大都市圈管理和优化•共享城市运营数据,服务于跨域联动和城乡一体化•挖掘城市价值信息,服务于政府服务和创新转型•对接产业供需信息,服务于产业链效能和规模提升

•政府IT集约化,提效、节能、降成本•中小企业IT云化,归核、均势、提效、降成本

•配套公共的政策、产业标准和园区,驱动发展

•IT规范+持续IT运营服务及优化,推动可持续性

•带动云计算、软件服务、外包、培训等产业

•政府服务创新和供需对接,提升政府管理服务水平•产业服务创新和供需对接,助推产业转型和升级•民生服务创新和供需对接,提升民众体验和幸福感

Page 45: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

该解决方案同样适用于其他政府机构

智慧城市

城市大数据运营中心

区域医疗平台

全国人口信息平台

大部制下的数据整合

……

大数据平台化

数据以城市/区域/大部组织

数据横向跨部门打通

数据纵向上下游打通

数据架构、组织和模型复杂

Page 46: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

流 获取 组织 分析 决策

全结构多层次多功能聚焦数据价值的大数据平台大道至简---软硬一体优化集成的Oracle大数据平台加快端到端的解决方案上市时间和降低风险,简化IT,聚焦业务

Hadoop

Open Source R

Applications

Oracle NoSQLDatabase

InfiniBand InfiniBand

In-D

ata

base

A

naly

tics

DataWarehouse

Oracle Advanced Analytics

OracleDatabase

BIEE+

ESSBase

TimesTen

Real TimeDecisions

Coherence

Event Processing

Page 47: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Page 48: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 48

Page 49: 大数据技术与用 - Oracle...• 在内存(非数据库)中运行的连续数据查询 • 强大和潜在无限的可扩展性数据容器 CAT CATERPILLAR D 22.5 600 20080305