Cloud Computing and Networking - 無線通訊暨雲端...

71
1 Chapter 0 Cloud Computing and Networking

Transcript of Cloud Computing and Networking - 無線通訊暨雲端...

1

Chapter 0

Cloud Computing and Networking

Books Designing Cisco Network Service Architectures

Foundation Learning Guide (3rd Edition) (Foundation Learning Guides)

2

Administration Instructor:

曾學文 資工系 副教授 Office: Room 908 Email: [email protected] Tel: 04-22840497 ext. 908 http://wccclab.cs.nchu.edu.tw/www/index.php/course

Office Hours: (Monday)14:00~17:00; (Tuesday) 14:00~17:00.

Grade: Projects 25% Paper Presentation 25% Midterm Exam 25% Final Exam 25%

3

Course Goal What is cloud ? To know what is the cloud computing To understand what is cloud applications or services To understand how to design the data center networks

of cloud computing. QoS Throughput Routing and Failover Transmission Delay Scalable Power and Thermal …

4

Cloud applications create huge data to use cloud computing

How much data? Wayback Machine (網站時光機) has 2 PB + 20

TB/month (2006) “All words ever spoken by human beings” ~ 5 EB NOAA ( 美國國家海洋暨大氣總署) has ~1 PB climate

data (2007) CERN’s LHC (大型強子對撞機) will generate 15 PB a

year (2008) Google processes 24 PB a day (2009)

640K ought to be enough for anybody.

•1 Terabyte (TB) = 1024 GB •1 Petabyte (PB) = 1024 TB •1 Exabyte (EB) = 1024 PB •1 Zettabyte (ZB) = 1024 EB •1 Yottabyte (YB) = 1024 ZB

Hugh Data Huge multicast traffic in DCN

Google MapReduce over 400 PB in one month Facebook registered users over one billion, the amount of

data generated every day more than 300 TB 2011 global digital data using about 1.8 ZB. According to IDC (International Data Corporation)

made the prediction research report, the total to 2020 will be 44 times now, about 35.2 ZB

http://techorange.com/2013/04/16/why-virtual-machine-is-so-attractive/

巨量資料的成長

2006年Facebook在網路上正式對全世界所有人開放,2007年智慧型手機開始急速流行,行動裝置與社群網路的蓬勃發展,如今世界每天都在累積巨量的資料

從2006年開始到2014年,地球累積的資料量,總計可以疊1.75兆隻32GB的iPhone 5's,這樣的距離約略是地球來回月球17.3次的長度

7

How to create more data? Answering confusing questions

Input pattern on the Web Works amazingly well

Learning relations

Input word patterns Search for patterns on the Web Using patterns to find more instances

Who shot Abraham Lincoln? → XXX shot Abraham Lincoln

Birthday-of(Mozart, 1756) Birthday-of(Einstein, 1879)

Wolfgang Amadeus Mozart (1756 - 1791) Einstein was born in 1879

PERSON (DATE – XXX ) PERSON describe … (Brill et al., TREC 2001; Lin, ACM TOIS 2007)

(Agichtein and Gravano, DL 2000; Ravichandran and Hovy, ACL 2002; … )

Large Data Centers Web-scale problems? Need more machines!!! Clear trend: centralization of computing resources in

large data centers Necessary ingredients: fiber, juice, and space

Important Issues:

Redundancy --> fault tolerance, load balance. Efficiency --> transmission latency Utilization --> bandwidth utilization Management --> virtualization, cooling system

10

科技誕生的促動期

過高期望的膨脹期

泡沫化的底谷期

穩步爬升的光明期

實質生產的高峰期

Big Data and Cloud Computing It starts with the premise that the data services and

architecture should be on servers. We call it cloud computing – they should be in a

"cloud" somewhere.

If you have the right kind of browser or the right kind of access, it doesn't matter whether you have a PC or a Mac or a mobile phone or a BlackBerry or what have you – or new devices still to be developed – you can get access to the cloud.

11 Danny Sullivan

Different Use Habits

12

2005

2013

3000

Bill

ion

(US$

)

1980 1995 2005 2015 Year 1939

300

100

1000

行動裝置 (1 to 1)

個人電腦 (1 to 1)

Mainframe (1 to many)

• 1980年代 – “ 每個人的桌上都有一台 個人電腦”

• 2010年代 – “ 每個人在行動中擁有一台 超級電腦”

雲端資料中心 (many to many)

「雲端資料中心」讓未來電腦運算就像是水、電 一樣,只要連上網

路就可以pay-as-you-go無限量提供服務。

雲端運算新世代

雲端運算的定義

虛擬運算技術

叢集運算技術

雲端運算經濟學 Unused resources

Static data center Data center in the cloud

Demand

Capacity

Time

Res

ourc

es

Demand

Capacity

Time

Res

ourc

es

Pay by use instead of provisioning for peak

Static data center

Demand

Capacity

Time

Res

ourc

es

Risk of over-provisioning: underutilization Lost revenue

Lost users

Res

ourc

es

Demand

Capacity

Time (days) 1 2 3

Res

ourc

es

Demand

Capacity

Time (days) 1 2 3

Res

ourc

es

Demand

Capacity

Time (days) 1 2 3

Heavy penalty for under-provisioning

資料來源:UC Berkeley RAD Lab

要如何做好資源管理

18

雲端運算商業模式

Cloud Ecosystem

雲端運算技術藍圖

IaaS

PaaS

Servers Storage Arrays Power Distribution Switches

+ Scalable System Architecture System Management Cooling

Cloud Hardware Platform

Hypervisor Virtualization Mgmt Storage Mgmt Security Backup/Replication Data Center Automation Energy Management

Cloud System Software Platform (VRM)

LAMP .NET WebSphere WebLogic Google App Engine

Cloud Application Middleware Platform

SaaS ERP, CRM, Design Service, EMR, Smart Grid… Applications

20

全球雲端運算產值現況與預測

XaaS 對台灣資 訊服務業 的新挑戰 與機會?

伺服器 (英業達,神達,鴻海,緯創,廣達…)

處理器 (威盛)

儲存體 (普安、喬鼎、 宜鼎、世仰、 信億 ...)

網通設備 (智邦、友訊、

合勤、建漢、正文...)

Cloud Hardware

System

平台服務營運 (中華電、台灣固網、遠傳…)

Service Operation

Infrastructure Software 應用服務 (電子郵件, 資料備份, 醫療電子病歷 …)

Cloud OS(ITRI/III、Microsoft、VMware… )

台灣雲端上下游產業價值鏈

電源供應及冷卻系統 (台達電、康舒...)

雲端運算帶來破壞式創新

Clayton M. Christensen

•雲端技術是”Sustaining Innovation” 雲端技術提供更好的功能與表現,且滿足相同企業用戶

雲端技術無法產生破壞性創新,而是技術的延續

Time

Technology Performance

Mainframe

Commodity Server

Commodity Server

+ Virtualization

Time

Service Performance

Incumbent Software

Cloud Service

•雲端服務是”Disruptive Innovation” 雲端服務以使用量計費方式取代高額授權金或硬體

鎖定中小客群而非主流大型企業客戶 不需具備IT專業知識即可快速使用雲端服務

資料來源:工研院 IEK

24

Verari

Source: Daniel Costello, Microsoft Data Center Transformation, Microsoft WinHEC 2008

雲端貨櫃型電腦

Why Container Computer?

能源使用效率(PUE)較佳 貨櫃內密閉式空間,冷卻成本大幅降低

擴充彈性高 方便運輸、安裝與卸除 能以不同貨櫃尺寸為出貨單位,支援不同的運算需求

26

Apple 雲端資料中心

1.Apple's existing Newark, CA., Data Center is around 109,000 square feet--the new one is over 500,000. That represents either a ridiculously big scaling-up of business or a whole new thing 2.500,000 square feet is among the largest centers being built in the World on a single site. Microsoft's new one in Chicago is around 400,000, in comparison

1. iPad系列的優點包括運行速度相當快速,具多點觸控功能、直覺的操作設計, 能持續使用12小時等特色,大幅增加iPad的吸引力。

2. 蘋果公司有一項重大東海岸資料中心建設,以提高在線服務的能力。此次投資金額高達 10億美元,目標建設和運營大型server farm

www.datacenterknowledge.com

資料來源:經濟部科專辦公室

27

Microsoft 雲端資料中心

微軟投資五億美金於芝加哥打造貨櫃型雲端資料中心

Microsoft…

Big Data

29

驅動雲端巨資處理的關鍵因素

資料成長速度超越摩爾定律 資料產生、擷取、管理、以及儲存的成本降低

30

巨量資料分析

李開復:『一斤數據優於一兩演算法』 人工智慧使用在挖掘巨量資料,利用雲端中的巨量資料

來解決人工智慧中難以用數學方法精確描述的、隱喻的複雜問題,且能接受精確度有瑕痴的預測

藉由收集龐大的雙語語料庫,訓練「自動翻譯」的統計模型,收集巨量的搜尋關鍵字,訓練「即時快搜(instant search)」的統計模型

31

巨量資料分析的基本思維

「樣本=母體」的時代 在巨量資料的時代,若還繼續死抓住隨機抽樣的觀念,就像是在汽車時代仍然揮舞著馬鞭一般 。

資料數量比資料品質更重要 接受資料是不完美、不精確的,反而更能用來預測未來,理解世界 。

32

雲端時代的王道 “Data”

雲端時代,Google會說:「笨蛋!重點在資料」("It's the data, stupid")。

誰掌握了你的資料,就有機會掌握你的荷包 Data 為21世紀經濟成長的新石油,是驅動企業創新、成長與創造差異化的新動能。

33

商人的水晶球- Big Data

34

Target百貨 • 美國的知名連鎖賣場Target寄發孕婦用品廣告給中學女生。

• Target特別重視懷孕的預測 − 有了小孩是家庭的一件大事,未來十餘年的物品購買習慣都會跟著改變。

• Target根據使用者的購買紀錄,包括使用的化妝品和所吃的維他命,來決定一位婦女的「懷孕預測指數」。

• 購買的商品和個人資料來預測懷孕指數值,正確率高達87%。

雲端雲算與巨量資料驅動企業創新 昔日錄影帶出租連鎖店龍頭企

業 成立於1985年,2004年為發展

發展高峰期,擁有超過9,000家店面

於2010年9月23日宣告破產,被Dish Network收購

2013年11月宣佈將關閉所有美國直營店面

今日雲端影片服務領導企業,運用社群媒體上的巨量資料持續創新產品與服務

成立於1997年,業務始於網路上提供影片DVD出租服務

1999年推出影片月租訂閱服務模式

2007年推出線上影片串流服務 2013年善用big data精準掌握

觀眾的偏好,推出深受市場歡

迎的自製影集節目《紙牌屋》

36

Netflix Netflix將觀眾尋找、評論和觀看影片的行為記錄下來

,工程師再將這些數據整理為有意義的資料,後來發現有三個元素最受Netflix的美國觀眾歡迎:大衛芬奇(David Fincher)導演、BBC出品、凱文史派西(Kevin Spacey)主演。

Netflix根據這三個元素打造自製影集《紙牌屋》,光是2013第一季就新增了305萬用戶,單季營收衝破10億2400萬美元,較2012年同期激增18% 。

37

Data-as-a-Service (DaaS) 資料是驅動當今數位化經濟的燃料,Data-as-a-Service

(DaaS)是一種以big data為資產的科技化服務(ITaaS),服務的形式包含傳統的圖書館服務,到雲端時代的巨量資料蒐集(collection),儲存(storage),處理(processing),分析(analysis)到應用(exploit)整合而成的一連串資料加值應用服務。

企業可以基於資料與資料分析技術提出創新產品或服務,協助商業決策,進而滿足客戶需求或改善營運效率。當今的DaaS應用服務層面 涵蓋商業、製造業、政府治理、健保、 天然災害預警、犯罪預防等等 。

38

39

40

Introduction Big data initiatives span four unique dimensions:

Nowadays’large-scale systems are awash with ever-growing data, easily amassing terabytes or even petabytes of information

Volume

Veracity

Velocity

Variety

Time-sensitive processes, such as bottleneck detection and service QoS prediction, could be achieved as data stream into the system

Structured and unstructured data are generated in various data types, making it possible to explore new insights when analyzing these data together

Detecting and correcting noisy and inconsistent data are important to conduct trustable analysis. Establishing trust in big data presents a huge challenge as the variety and number of sources grows

企業從內部巨量資料到外部巨量資料的應用

預估2009年到2020年的全球資料複合年均增長率(CAGR)將達到41%,高達2/3企業在big data處理上,已逐漸從批量處理走向即時資料處理 。

企業目前多著重處理business與human generated data,未來machine generated data將帶來100X以上的資料量 。

42

巨量資料不等同於巨大價值

麥肯錫(McKinsey)在2012的調查顯示,有58% 的受訪者認為資料的取得及分析為IT投資中最重要的。

IDC更將2013年訂為巨量資料實踐元年,可見巨量資料的重要性 。

43

巨量資料不等同於巨大價值 雖然麥肯錫的研究顯示巨量資料可以創造極大的商機,

但巨量資料不等同於巨大價值。 巨量資料如同冰山,絕大部分埋藏在水面下,冰山一角

是目前有限的分析價值,埋藏在水面下的才是真正有待發掘而又能創造無限商機的巨大價值,因此企業需要善用各種資料的解決方案,才有可能創造巨大的商機 。

44

企業價值的重新定義

2009年10月Twitter宣布和Google、微軟合作,獲利$2.5M美元 Twitter內容可立即在搜尋雙霸的搜尋引擎上找到

2010年12月1日美國最大團購網站Groupon以$3M美元收購「地圖日記」 以生活圈為範圍,讓使用者在地圖上分享文字、照片或影音的社

交網路平台 2009年中正式推出團購服務「百萬網友團購網」

2013年12月9日LINE母公司NAVER以$17.7M美元併購「走著

瞧」(gogolook) 陌生號碼辨識與簡訊封鎖APP,gogolook開發的whoscall, 目前

已累積了超過500萬用戶,每日活躍用戶高達一百萬人 2013年12月2日蘋果以$200M美元收購社交分析服務公司「

Topsy」 提供社交分析服務,分析Twitter 5億用戶所產生每日5億個推文

資訊

45

巨量資料分析決定了企業價值!!

巨量資料系統處理

46

巨量資料產業鏈

47

魔球成真「算」出勝利

《魔球》(Moneyball)是一部2011年棒球題材的美國劇情片,由布萊德·彼特主演。影片根據邁克爾·路易斯於2003年發表的同名書籍 Moneyball 改編而成,講述奧克蘭運動家在球隊總經理比利·比恩的帶領下,透過數字統計分析,打破傳統,讓一支沒有明星球員、名不見經傳的小球隊,也能奪得冠軍 !

48

德國隊的最佳第十二人

根據華爾街日報報導, 2014年的世足賽德國隊運用了SAP的巨量資料分析工具Match Insights來提升戰力。

德國國家隊為了順利奪冠,由德國足協出面與德國軟體大廠SAP溝通合作,開發一個足球解決方案,稱為Match Insights。

每場比賽都會在場地設置八台高精密度的3D攝影機,全程追蹤錄影每個球員的動作,包含跑的距離、傳球等等。在練習時也在球員身上裝置感應器,量測他們在跑步或是練球過程中的身體狀況變化。

49

德國隊的最佳第十二人

Match Insights同時也會收集所有對手的巨量資料,並協助教練分析出其中規律,最佳化球隊的訓練方式,甚至讓戰術先對手一步進行。

50

美國維吉尼亞州里奇蒙市首府犯罪分析

根據《經濟學人》報導,維吉尼亞州的Richmond 警局從過去經驗知道,只要有大型派對就容易發生犯罪

警方利用一種稱為「網絡分析軟體」去搜尋分析大量Facebook與Twitter等社群媒體(social media)資料,只要有出現「派對」、「宴會」等字眼就會被標示起來。警方可以事先知道哪裡要舉行派對了,加派警力巡邏

53

犯罪分析

這個「網路分析軟體」,關鍵是運用雲端龐大的運算能力,建立預測模型。例如:派對容易有鬧事犯罪,透過大量分析資料準確預測行為發生的時間跟地點,等於預先看見未來。

54

美國紐約市警察局即時打擊犯罪中心

2012年與微軟合作共同開發地域感知系統(DAS),民眾報案後,警察從監視器若只能看到歹徒臉部側面影像,也能使用人臉描繪系統,將畫質不清晰的影像,模擬描繪成完整臉部,再與海量資料裡的各類資料庫進行照片比對,快速找到可疑對象 。

56

消費者數據研究平台-淘寶指數 淘寶指數是淘寶官方免費的資料分享平臺,透過它用戶

可以窺探淘寶購物資料,瞭解淘寶購物趨勢 買家:淘寶指數可作為購物決策的參謀,瞭解當下流行趨勢,瞭

解同一類人的購物傾向及特點,與其他類人有什麼不一樣 賣家:淘寶指數就是一個免費的市場行情參謀,他可以從中看到

什麼東西賣得最火,自己家店鋪經營的商品的主流消費者人群面貌是怎樣的,便於更加精準地行銷方案

協力廠商:包括是媒體、行業專家、數據愛好者,可借助淘寶指數這個開放的淘寶資料資訊共用平臺,獲取到當下流行購物趨勢或研究作參考作佐證

57

阿里巴巴: 巨量資料分析為商業核心驅動力

58

aSPI 指數

阿里巴巴基於淘寶網、天貓網、支付寶等網路平臺的數據,編制了阿里巴巴網購價格系列指數(alibaba Shopping Price Indices,簡稱aSPI),該指數體系包括價格指數系列,實物交易量指數系列,用來反映網路零售交易商品和服務的一般價格水平的指標

59

TSMC大資料分析創造技術優勢 從40奈米進入到20奈米製程後,資料量大幅提升了24倍,而現有台

積電一個超大型晶圓廠(GigaFab),平均每月可以生產10萬∼20萬片的晶圓,若一個12吋晶圓廠來計算,每秒可以產出約100萬筆的資料

台積電使用HBase作為大資料分析架構底層的資料基礎設施,並導入Hadoop平行處理系統,搭配SPSS、SAS及R語言,透過資料前處理、過濾、特徵萃取等步驟,將龐大機臺製程資料拿來進行資料採礦,找到關鍵因子,最後經由資料視覺化工具,將分析結果加以呈現。

60

韓國用Big Data分析午夜公車路線 韓國的一位小市民透過Twitter提出了夜間公車搭乘的的

需求建議給市長,讓市政府決定接受,與韓國電信公司(Korea Telecom)合作開始利用手機觀測大數據,分析市民的移動的方式、距離及目的地,設計出午夜公車的路線。

2013年4月推出「貓頭鷹公車」服務,提供給市民除了計程車外,還有安全又平價的夜間公車可選擇,並同時達到提升市政管理之效益。

61

午夜公車路線 大數據分析午夜過後市民擁擠度 最高的5個地區,多達

30億通話 紀錄及交通資訊。透過調閱民眾 深夜的通話及簡訊發送資料,仔 細比對每個用戶的「夜間發話地 點」和「寄送帳單地址」,只要 發現「發話地點」和「帳單寄送」 地址不同,就表示用戶人不在家, 可能會有搭乘大眾運輸系統的需 求,也能預測深夜回家的方向。

62

企業巨資分析商業應用的挑戰

電信業者利用手機可攜碼資料庫,開發名為M+Messenger的通訊軟體,消費者下載後,手機通訊錄會顯示朋友手機門號是哪家電信公司,原意是讓民眾知道打出的號碼,會以網外還是網內計費,可是有民眾主張違反個人資料保護法,告上法院,台北地方法院認定業者須賠償五百元。

63

64

“Green” Cloud Computing

The Power of Evolution of VLSD

Generation 3 300K Servers

Container Scalability Power Usage Efficiency

(PUE)

1990 1998 2008 Generation 1 10K Servers

Server Capacity

~ 500 KWatts

Generation 2 100K Servers

Server Density and Manageability

~ 10 MegaWatts ~ 60 MegaWatts ??

VLSD: Very Large Scale Datacenter

Thermal Management

Highly efficient container computer based VLSD

68

Cooling is a BIG problem in VLSD

(Phoenix ONE datacenter) car

69

Today’s VLSD needs a lot of Power + Water

Google Datacenter at Columbia river, Oregon

70

Greenland (格陵蘭 ) Datacenter

TELE Greenland A/S Datacenter

71

Interesting ideas for building “Green” VLSD

72

Interesting ideas for building VLSD

73

Interesting ideas for building “green” VLSD

(Google Navy floating data centers) The sea-going computer platforms will be sustainably powered by wave energy converters.

74

Interesting ideas for building “green” VLSD

Google Navy floating data centers The sea-going computer platforms will be sustainably powered by wave

energy converters.

75

Green Datacenter + swimming pool

• Heat generated by VLSD is used to heat the swimming pool

• Cold water from the swimming pool is used to cool the VLSD

76

Wind “Green” Power generation for VLSD

Summary

• IT Datacenter is at crossroad - Cloud Computing is driving VLSD demand • Today’s cooling approaches are lacking - Especially in sub-tropical climates (China/Taiwan) • Today’s power generation is expensive

• Many new ideas – May the best man win