NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT...
Transcript of NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT...
在 AI AI
NVIDIA Tesla P4 NVIDIA Pascal™ AI
15 60 AI
NVIDIA TESLA P4 | | 9 16
50/75
INT8 15
35 HD
GPU NVIDIA Pascal™
5.5 TeraFLOPS*
INT8 22 TOPS* -
GPU 8 GB
192 GB/
Low-Profile PCI Express
50W/75W
ECC
1x 2x
*
NVIDIA® TESLA® P4
AlexNet 33
169
12
91
0 10X 20X 30X 40X 50X 60X 70X
60
附註: TensorRT + FP32 P40 TensorRT + Int 8 =128
Tesla M4Tesla P4
Tesla P411 ms
↓
Tesla M482 ms
↓160 ms
↓
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170
15
:22 Intel Xeon E5-2699V4 TensorRT + FP32 P4 TensorRT + Int8 4
Tesla P4
Tesla M4
2
14
35
0 5 10 15 20 25 30 35
視訊轉碼及 H.264 串流推論
附註: 測試基準以 緩慢模式執行 | HD = 在 30 每秒畫面格數可達 720p
同時連線數
。保留所有權利。NVIDIA、NVIDIA 標誌、TESLA 和 是 NVIDIA 公司在美國及其他國家的商標及/或註冊商標。 是 的商標,由 取得授權使用。所有其他商標和著作權皆為其各自 擁有者之財產。9 月 16 日
NVIDIA TESLA P4 加速器功能及優勢Tesla P4 的設計可提供即時推論效能,並產生在擴展伺服器方面的智慧使用者體驗。
TENSORRT 及 DEEPSTREAM SDK 讓部署更快速
TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的 神經網路 - 通常為 32 位元或 16 位元資料 - 並加以優化,以配合低精確度 INT8 運算。NVIDIA DeepStream SDK 能展現 同時解碼與分析視訊串流的能力。
低功率擴展式伺服器的空前效率
Tesla P4 的小巧體積和 50W/75W 功率用量設計可加快密度最佳化的擴展式伺服器速度。Tesla P4 在深度學習推論工作負載方面也具備遠勝 達 60 倍的無比能源效率,滿足超大型客戶在 AI 應用上的指數級成長需求。
利用專用解碼引擎解放全新 AI 架構視訊服務
Tesla P4 可即時轉碼和推論多達 35 項 HD 視訊串流,並支援轉用硬體加速解碼引擎,能與 同時執行推論。在視訊管線中整合深度學習後,客戶便 能為使用者提供過去所無法實現的智慧、創新的 視訊服務。
具備即時推論的回應體驗
回應能力是使用者參與互動交談、視覺搜尋和視訊建議等服務的關鍵所在。隨著模型在精確度與完整性方面的提升, 已不足以提供回應式的使用者體驗。Tesla P4 推出 22 項頂尖的推論式效能,其中包含削減延遲達 15 倍的 INT8 運算。
FPO
如欲進一步瞭解 NVIDIA Tesla P4,請造訪 。
TESLA P40 | | 9 16
AI
NVIDIA Pascal™
NVIDIA Tesla P40 推論 47 TOPS - INT8 8 Tesla P40s
140
Tesla P40 30 推論
INT8 47 TOPS 推論
推論 35 HD
GPU NVIDIA Pascal™
12 TeraFLOPS*
(INT8) 47 TOPS* -
GPU 24 GB
346 GB/
PCI Express 3.0 x16
4.4” x 10.5”
250 W
ECC
1x 2x
*
NVIDIA® TESLA® P40
AlexNet
12100
51900
28900
88800
0 302010 40 50 60 70 80 90
4
( TensorRT + FP32 )及 P40( TensorRT + Int 8 )、 ,批次大小 =128
8X Tesla M408X Tesla P40
Tesla P40
↓
Tesla M4024 ms
↓160 ms
↓
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170
降低應用程式延遲達 30 倍
:22 核心 Intel Xeon E5-2699V4, ,批次大小: ( TensorRT + FP32 )及 P4( TensorRT + Int8 )、 ,批次大小:4
以毫秒為單位的深度學習推論延遲
即時推論
Tesla P40 提供使用 INT8 運算、快達 30 倍的推論效能,即使是最複雜的深度學習模型也可即時回應。
透過單次訓練和推論平台進行精簡運算
現今的深度學習模型皆是在 伺服器上訓練,但推論的執行仍在 伺服器裡部署。Tesla P40 推出大幅精簡的工作流程,讓組織可利用相同的伺服器反覆執行及部署。
NVIDIA TESLA P40 加速器功能及優勢Tesla P40 是專為深度學習工作負載而打造,可提供最大的流量。
140 倍的高流量幫助掌握超大量資料
Tesla P40 支援全新 Pascal 架構,可提供超過 47 TOPS 的深度學習推論效能。一部配備 8 個 Tesla P40s 的伺服器可取代多達 140 部僅配備 的伺服器來執行深度學習工作負載,讓您擁有明顯更高的流量與更低的取得成本。
NVIDIA 深度學習 SDK 讓部署更快速
TensorRT 隨附 NVIDIA 深度學習 SDK 和深度串流 SDK,幫助客戶無縫銜接推論功能的運用,例如新的 INT8 運算及視訊轉碼等。
。保留所有權利。NVIDIA、NVIDIA 標誌、TESLA、 、 和 是 NVIDIA 公司在美國及其他國家的商標及/或註冊商標。 是 的商標,由 取得授權使用。所有其他商標和著作權皆為其各自擁有者之財產。9 月 16 日
如欲進一步瞭解 NVIDIA Tesla P40,請造訪 。
| | 6 16
PCIe
NVIDIA Pascal™ +
NVIDIA Tesla P100 for PCIe 效能
應用加速
NAMD VASP MILC AMBERHOOMD-Blue
Caffe/AlexNet
2X K80 2X P100(PCIe) 4X P100(PCIe)30 X
25 X
10 X
5 X
0 X
20 X
15 X
雙 CPU 伺服器、Intel E5-2698 v3 @ 2.3 GHz、256 GB 系統記憶體、早期生產的 Tesla P100
GPU NVIDIA Pascal
NVIDIA CUDA® 3584
4.7 TeraFLOPS
9.3 TeraFLOPS
18.7 TeraFLOPS
GPU 記憶體 16GB CoWoS HBM2 at 732 GB/s or 12GB CoWoS HBM2 at 549 GB/s
PCIe Gen3
250 W
ECC
PCIe /
API NVIDIA CUDA DirectCompute OpenCL™ OpenACC
™ TeraFLOPS
NVIDIA® TESLA® P100 GPU
。保留所有權利。NVIDIA、NVIDIA 標誌、TESLA、 、 及 皆是 NVIDIA 公司在美國及其他國家的商標及註冊商標。 是 的商標,並授權給 使用。所有其他商標及版權皆為個別擁有者所有之財產。6 月 16 日
想要進一步瞭解 ,請造訪
在各方面皆採創新技術,從矽晶圓到軟體進行重新塑造。每一項突破性技術的效能都出現大幅進步,同時提升了資料中心的處理量。
TeraFLOPSTeraFLOPS TeraFLOPS
Substrate HBM2
3
BW(
GB/S
ec)
800
600
400
200
0
K40
P100
3
M40K40
M40P100 (FP32)
P100 (FP16)25
20
15
10
5
0Tera
flops(
FP32
/FP1
6)
HPC
Unified Memory
CPU GPU
可定址記憶體(
GB)
10,000
1,000
100
10
0
K40M40
P100
虛擬無限記憶體擴展性
The Exponential Growth of Computing
Accelerating scientific discovery, visualizing
big data for insights, and providing smart
services to consumers are everyday challenges
for researchers and engineers. Solving
these challenges takes increasingly complex
and precise simulations, the processing of
tremendous amounts of data, or training
sophisticated deep learning networks. These
workloads also require accelerating data centers
to meet the growing demand for exponential
computing.
NVIDIA Tesla is the world’s leading platform
for accelerated data centers, deployed by
some of the world’s largest supercomputing
centers and enterprises. It combines GPU
accelerators, accelerated computing systems,
interconnect technologies, development tools,
and applications to enable faster scientific
discoveries and big data insights.
At the heart of the NVIDIA Tesla platform
are the massively parallel GPU accelerators
that provide dramatically higher throughput
for compute‑intensive workloads—without
increasing the power budget and physical
footprint of data centers.
NVIDIA® TESLA®. ONE PLATFORM. UNLIMITED DATA CENTER ACCELERATION.
TESLA PLATFORM | LINE CARD | FEb17© 2017 NVIDIA Corporation. All rights reserved. NVIDIA, the NVIDIA logo, and Tesla are trademarks and/or registered trademarks of NVIDIA Corporation in the U.S. and other countries. All other trademarks and copyrights are the property of their respective owners.
© 2017 NVIDIA Corporation. All rights reserved. NVIDIA, the NVIDIA logo, and Tesla are trademarks and/or registered trademarks of NVIDIA Corporation in the U.S. and other countries. All other trademarks and copyrights are the property of their respective owners.
Choose the Right NVIDIA® Tesla® Solution for YouPRODUCT DESIGNED FOR bENEFITS KEY FEATURES RECOMMENDED SERVER
CONFIGURATIONS
Tesla P100 PCIe HPC and Deep Learning Replace 32 CPU servers with a single P100 server for HPC and deep learning
> 4.7 TeraFLOPS of double‑ precision performance
> 9.3 TeraFLOPS of single‑ precision performance
> 720 GB/s memory bandwidth (540 GB/s option available)
> 16 GB of HBM2 memory (12 GB option available)
2‑4 GPUs per node
Tesla P100 with NVLink™
Deep Learning Training 10X faster deep learning training vs. last‑gen GPUs
> 21 TeraFLOPS of half‑ precision performance
> 11 TeraFLOPS of single‑ precision performance
> 160 GB/s NVIDIA NVLink™
> Interconnect
> 720 GB/s memory bandwidth
> 16 GB of HBM2 memory
4‑8 GPUs per node
Tesla P40 Deep Learning Training and Inference
40X faster deep learning inference than a CPU server
> 47 TeraOPS of INT8 inference performance
> 12 TeraFLOPS of single‑ precision performance
> 24 GB of GDDR5 Memory
> 1 decode and 2 encode video engines
Up to 8 GPUs per node
Tesla P4 Deep Learning Inference and Video Trancoding
40X higher energy efficiency than a CPU for inference
> 22 TeraOPS of INT8 inference performance
> 5.5 TeraFLOPS of single‑ precision performance
> 1 decode and 2 encode video engines
> 50 W/75 W Power
> Low profile form factor
1‑2 GPUs per node
ABC Product (Model) Name
AbC PRODUCT (MODEL) NAME
Partner product description paragraph. One hundred words maximum. Xeris exeria nobis exerferis dolupt.
> Spec 1: Some Data > Spec 2: Some Data > Spec 3: Some Data > Spec 4: Some Data
COMPANY NAME
Optional company brief description paragraph. No more than fifty words. Explia consequam il ilis escipiducium remd. Xeris exeria nobis exerferis dolupt, qui quo volores dolori blab iliquate il il excerum excesequi dolori manaianisi mintes.
www.abccompany.com | +1 (123) 555‑678 | [email protected]
TESLA P100 效能指南HPC 及深度學習應用
APR 2017
TESLA P100 效能指南現代的高效運算(HPC)資料中心是解決部分全球最重要之科學與工程挑戰的
關鍵。 NVIDIA® Tesla® 加速運算平台利用領先業界的應用程式支援這些現代化
資料中心,促進 HPC 與 AI 工作負載。Tesla P100 GPU 是現代資料中心的
引擎,能以更少的伺服器展現突破性效能,進而實現更快的解析能力,並大幅
降低成本。
每一個 HPC 資料中心都能自 Tesla 平台獲益。在廣泛的領域中有超過 400 個 HPC 應用程式,採用 GPU 最佳化,包括所有前 10 大 HPC 應用程式和各種
主要深度學習架構。
超過 400 個 HPC 應用及所有深度學習架構皆是採用加速 GPU。 > 若想要取得最新 GPU 加速應用目錄,請造訪: www.nvidia.com/teslaapps
> 若想要立即在 GPU 上使用簡易指示,快速執行廣泛的加速應用,請造訪: www.nvidia.com/gpu-ready-apps
採用加速 GPU 應用程式的研究領域包括:
分子動力 量子化學 物理學
石油與天然氣 金融 深度學習
應用效能指南
分子動力(MD)代表 HPC 資料中心的大部分工作負載。100% 頂尖 MD 應用
皆是採用 GPU 加速,以使科學家能進行從前僅有 CPU 版本之傳統應用項目
無法執行的模擬工作。在執行 MD 應用時,配備 Tesla P100 GPU 的資料中心
可節省高達 60% 的伺服器取得成本。
TESLA 平台及適用 MD 的 P100 的關鍵功能> 搭載 P100 的伺服器,最多可取代 40 部適用 HOOMD-Blue、
LAMMPS、AMBER、GROMACS 和 NAMD 等應用的 CPU 伺服器
> 100% 頂尖 MD 應用項目皆採用加速 GPU
> FFT 和 BLAS 等關鍵數學程式庫
> 每一個 GPU 之單精度效能高達每秒 11 TFLOPS
> 每一個 GPU 之記憶體頻寬高達每秒 732 GB
檢視所有相關的應用項目:
www.nvidia.com/molecular-dynamics-apps
TESLA P100 效能指南
分子動力
HOOMD-BLUE循序寫入 GPU 的粒子動力封裝
版本 1.3.3
加速功能CPU 和 GPU 可用版本
延展性多 GPU 和多節點
更多資訊www.nvidia.com/hoomd-blue
LAMMPS典型粒子動力封裝
版本 2016
加速功能Lennard-Jones、Gay-Berne、Tersoff 更多勢能
延展性多 GPU 和多節點
更多資訊www.nvidia.com/lammps
HOOMD-Blue 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:Microsphere | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
僅用
CPU
運算的伺服器
8X P1004X P1002X P1008X P1001 部配備 P100 的伺服器
(12 GB)GPU1 部配備 P100 的伺服器
(16 GB)GPU
4X P1002X P100
12
18
26
13
19
27
0
5
10
15
25
30
20
LAMMPS 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:EAM | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
僅用
CPU
運算的伺服器
6
10
16
7
11
18
0
5
10
15
20
25
8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器
(12 GB)GPU1 部配備 P100 的伺服器
(16 GB)GPU
應用效能指南 | 分子動力
AMBER 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 ® 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:GB-Myoglobin | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
僅用
CPU
運算的伺服器
4X P1002X P1004X P1002X P100
31
38
32
39
0
5
10
20
15
25
30
35
40
45
1 部配備 P100 的伺服器(12 GB)GPU
1 部配備 P100 的伺服器(16 GB)GPU
GROMACS 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:Water 3M | 我們使用高達 8 CPU 節點測量基準點,以達到 CPU 節點等效。
僅用
CPU
運算的伺服器
5 54 4
0
5
15
10
4X P1002X P1004X P1002X P1001 部配備 P100 的伺服器
(12 GB)GPU1 部配備 P100 的伺服器
(16 GB)GPU
GROMACS模擬含複雜連結互動的生物模型分子
版本 5.1.2
加速功能PME,顯性與隱性溶劑
延展性多 GPU 和多節點 擴展至 4xP100
更多資訊www.nvidia.com/gromacs
黃色在生物分子上模擬分子動力的程式套件
版本 16.3
加速功能PMEMD 顯性溶劑和 GB、顯性及隱性溶劑、 REMD、aMD
延展性多 GPU 和多節點
更多資訊www.nvidia.com/amber
應用效能指南 | 分子動力
NAMD 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:STVM | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
9 10
僅用
CPU
運算的伺服器
2X P1002X P100
0
5
10
15
1 部配備 P100 的伺服器(12 GB)GPU
1 部配備 P100 的伺服器(16 GB)GPU
NAMD專為高效模擬大分子系統而設計
版本2.11
加速功能PME 全靜電和眾多模擬功能
延展性高達 100M 原子,多 GPU, 擴展為 2xP100
更多資訊www.nvidia.com/namd
應用效能指南 | 分子動力
量子化學(QC)模擬是探索新藥物與原料的關鍵,且會耗費大部分 HPC 資料中心
的工作負載。目前,60% 的頂尖 QC 應用都採用加速 GPU。在執行 QC 應用時,
配備 Tesla P100 GPU 的資料中心工作負載可節省高達 40% 的伺服器成本。
TESLA 平台及適用 QC 的 P100 的關鍵功能 > 搭載 P100 的伺服器,最多可取代 36 部適用 VASP
和 LSMS 等應用的 CPU 伺服器
> 60% 的頂尖 QC 應用項目皆採用加速 GPU
> FFT 和 BLAS 等關鍵數學程式庫
> 每一個 GPU 之雙精度效效能高達每秒 5.3 TFLOPS
> 大資料集記憶體容量高達 16 GB
檢視所有相關的應用項目:
www.nvidia.com/quantum-chemistry-apps
TESLA P100 效能指南
量子化學
VASP 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:B_hR105 | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
僅用
CPU
運算的伺服器
6
13
18
9
14
19
8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器
(12 GB)GPU1 部配備 P100 的伺服器
(16 GB)GPU
0
5
10
15
20
25
LSMS 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:Fe16 | 為達到 CPU 節點等效,我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮來測量基準點。
2624
3032
36 36
僅用
CPU
運算的伺服器
2X P100 8X P1004X P1002X P1008X P1004X P1001 部配備 P100 的伺服器
(12 GB)GPU1 部配備 P100 的伺服器
(16 GB)GPU
0
5
10
20
15
25
30
35
40
VASP從頭開始執行量子機制分子動力(MD) 模擬的封裝
版本 5.4.1
加速功能RMM-DIIS、Blocked Davidson、 K-points 和正確交換
延展性多 GPU 和多節點
更多資訊www.nvidia.com/vasp
LSMS研究磁性溫度作用的材料代碼
版本3
加速功能廣義的 Wang-Landau 算法
延展性多 GPU
更多資訊www.nvidia.com/lsms
應用效能指南 | 量子化學
從聚變能量到高能量粒子,HPC 資料中心的物理模擬涵蓋極廣泛的應用。多數
頂尖物理應用皆是採用加速 GPU,解析從前無法實現的項目。在執行物理應用
時,配備 Tesla P100 GPU 的資料中心可節省高達 70% 的伺服器取得成本。
TESLA 平台及適用物理學的 P100 的關鍵功能 > 搭載 P100 的伺服器,最多可取代 50 部適用 GTC-P、QUDA、MILC 和
Chroma 等應用的 CPU 伺服器
> 絕大多數的頂尖物理學應用項目皆採用加速 GPU
> 雙精度浮點效能高達 5.3 TFLOPS
> 記憶體容量高達 16 GB 且記憶體頻寬高達 732 GB/s
檢視所有相關的應用項目:
www.nvidia.com/physics-apps
TESLA P100 效能指南
物理學
GTC-P 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:gtc. 輸入 | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
僅用
CPU
運算的伺服器
6
10
16
7
11
17
0
5
10
15
20
8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器
(12 GB)GPU1 部配備 P100 的伺服器
(16 GB)GPU
QUDA 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.42 | 資料集:Glove Precision Single、Gauge Compression/Recon:12,問題規模 32x32x32x64 | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
僅用
CPU
運算的伺服器
16
29
49
21
39
54
0
10
20
30
40
60
55
5
15
25
35
50
45
8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器
(12 GB)GPU1 部配備 P100 的伺服器
(16 GB)GPU
GTC-P最佳化電漿物理的開發代碼
版本 2016
加速功能推動、移動和碰撞
延展性多 GPU
更多資訊www.nvidia.com/gtc-p
QUDAGPU 格點量子色動力學程式庫
版本 2017
加速功能全部
延展性多 GPU 和多節點
更多資訊www.nvidia.com/quda
應用效能指南 | 物理學
MILC 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.42 | 資料集:雙倍精度 | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
69 10
6
僅用
CPU
運算的伺服器
0
5
10
15
4X P1002X P1004X P1002X P1001 部配備 P100 的伺服器
(12 GB)GPU1 部配備 P100 的伺服器
(16 GB)GPU
Chroma 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.42 | 資料集:szscl21_24_128(總時間秒)| 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
僅用
CPU
運算的伺服器
7
12
21
7
13
21
0
5
10
15
20
25
8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器
(12 GB)GPU1 部配備 P100 的伺服器
(16 GB)GPU
MILC格點量子色動力學(LQCD)代碼模擬元素微粒之形成方式,以及藉由「強作用力」進行結合,創建出質子和中子等更大微粒
版本 7.8.0
加速功能特性交錯費米子、Krylov 計算器和 計量-鏈結厚化縮放為 4xP100
延展性多 GPU 和多節點
更多資訊www.nvidia.com/milc
CHROMA格點量子色動力學(LQCD)
版本2016
加速功能Wilson-clover 費米子、 Krylov 計算器和區域分解
延展性多 GPU
更多資訊www.nvidia.com/chroma
應用效能指南 | 物理學
地球科學模擬是探勘石油與天然氣和執行地質建模的關鍵。目前,多數頂尖的地球
科學應用都採用加速 GPU。在執行地球科學應用時,配備 Tesla P100 GPU 的資料
中心可節省高達 65% 的伺服器成本。
TESLA 平台及適用地球科學的 P100 的關鍵功能 > 搭載 P100 的伺服器,最多可取代 50 部適用 RTM 和 SPECFEM 3D 等應用的
CPU 伺服器
> 頂尖石油與天然氣應用皆採用加速 GPU
> 單精度浮點效能高達 10.6 TFLOPS
> 記憶體容量高達 16 GB 且記憶體頻寬高達 732 GB/s
檢視所有相關的應用項目:
www.nvidia.com/oil-and-gas-apps
TESLA P100 效能指南
石油與天然氣
RTM 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe (12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.42 | 資料集:TTI R8 3 pass | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
僅用
CPU
運算的伺服器
5
10
19
7
13
26
0
5
10
15
20
25
30
8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器
(12 GB)GPU1 部配備 P100 的伺服器
(16 GB)GPU
SPECFEM 3D 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.42 | 資料集:全域 112x64,100 分 | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
僅用
CPU
運算的伺服器
13
25
42
17
31
51
0
5
15
25
35
10
20
30
40
45
55
50
60
8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器
(12 GB)GPU1 部配備 P100 的伺服器
(16 GB)GPU
RTM逆時偏移(RTM)模型是石油與天然氣探勘地震處理流程的關鍵要素
版本 2016
加速功能批次演算法
延展性多 GPU 和多節點
SPECFEM 3D模擬震波傳播
版本7.0.0
加速功能Wilson-clover 費米子、 Krylov 計算器和區域分解
延展性多 GPU 和多節點
更多資訊www.nvidia.com/specfem3d-globe
應用效能指南 | 石油與天然氣
模擬是金融服務公司提供快速推動業務及平價優異分析的關鍵。頂尖金融應用皆是
採用加速 GPU,並能為支援 Tesla P100 GPU 的資料中心節省高達 40% 的伺服器
成本。
TESLA 平台及適用金融的 P100 的關鍵功能 > 搭載 P100 的伺服器,最多可取代 12 部適用 STAC A2 等應用的 CPU 伺服器
> 頂尖金融應用皆採用加速 GPU
> 雙精度浮點效能高達 5.3 TFLOPS
> 記憶體容量高達 16 GB 且記憶體頻寬高達 732 GB/s
檢視所有相關的應用項目:
www.nvidia.com/financial-apps
TESLA P100 效能指南
金融
STAC A2 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.42 | 資料集:10-100k-1260(Warm Creek)| 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
僅用
CPU
運算的伺服器
36
11
47
12
0
5
10
15
8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器
(12 GB)GPU1 部配備 P100 的伺服器
(16 GB)GPU
STAC A2Compute-intensive analytic workloads involved in pricing and risk management
VERSION 2016
ACCELERATED FEATURESAll
SCALABILITYMulti-GPU and Multi-Node
MORE INFORMATIONwww.nvidia.com/stac-a2
應用效能指南 | 金融
深度學習可解決數年前似乎已超越我們知識所及的重要科學、企業及消費問題。
每一個主要的深度學習架構都是採用 NVIDIA GPU 最佳化,因此資料科學家與研究
人員可運用人工智慧處理他們的工作。在執行深度學習架構時,配備 Tesla P100 GPU 的資料中心可節省高達 70% 的伺服器取得成本。
TESLA 平台及適用深度學習訓練的 P100 的關鍵功能 > 相較於 K80,配備 Tesla P100 的 Caffe、TensorFlow 和 CNTK 速度皆可高達 3x
> 100% 頂尖深度學習架構項目皆採用加速 GPU
> 原生半精度浮點高達 21.2 TFLOPS
> 記憶體容量高達 16 GB 且記憶體頻寬高達 732 GB/s
檢視所有相關的應用項目:
www.nvidia.com/deep-learning-apps
TESLA P100 效能指南
深度學習
Caffe 深度學習相對效能P100 伺服器訓練與 K80 伺服器訓練的比較
CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | Ubuntu:14.04.5 | NVIDIA CUDA® 版本:8.0.54 | cuDNN:6.0.5 資料集:ImageNet | 批次規模:AlexNet (128)、GoogleNet (256)、ResNet-50 (64) VGG-16 (32) | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。
速度比
8X
K80
伺服器更快
8X P100 PCIe 8X P100 NVLink8X P100 PCIe
1.3
1.8 1.81.6
1.3
2.0 2.01.8
3.4
2.3 2.32.6
0
1X
2X
3X
4X
5X
ResNet-50GoogLeNetAlexNet VGG16
1 部配備 P100 的伺服器(16 GB)GPU
1 部配備 P100 的伺服器(16 GB)GPU
1 部配備 P100 的伺服器(16 GB)GPU
CAFFE加州大學柏克萊分校開發出廣受歡迎的加速 GPU 深度學習架構
版本 0.16
加速功能完整加速架構
延展性多 GPU
更多資訊www.nvidia.com/caffe
應用效能指南 | 深度學習
© 2017 NVIDIA CORPORATION 保留所有權利。NVIDIA、NVIDIA 標誌和 TESLA 是 NVIDIA 公司在美國及其他國家的商標及/或註冊商標。其他公司與產品名稱可能為其各自聯屬公司之商標。 APR17
TESLA P100 產品規格
NVIDIA Tesla P100 for PCIe 架構伺服器
NVIDIA Tesla P100 for NVLink 最佳化伺服器
雙精度浮點運算效能 高達 4.7 TFLOPS 高達 5.3 TFLOPS
單精度浮點運算效能 高達 9.3 TFLOPS 高達 10.6 TFLOPS
半精度浮點運算效能 高達 18.7 TFLOPS 高達 21.2 TFLOPS
NVIDIA NVLink™ 互連頻寬 - 160 GB/秒
PCIe x 16 互連頻寬 32 GB/秒 32 GB/秒
CoWoS HBM2 堆疊記憶體容量 16 GB 或 12 GB 16 GB
CoWoS HBM2 堆疊記憶體頻寬 732 GB/秒或 549 GB/秒 732 GB/秒
假設及免責聲明採用加速 GPU 的頂尖應用百分比係取自 i360 報告中的 50 大應用清單。HPC 應用支援 GPU 運算。流量與節費計算均是假設在工作負載數據圖中,採用相同的運算循環檢測該領域之應用 項目