GPU Programming with OpenACC: A LBM Case Study

GPU PROGRAMMING WITH OPENACC: A LBM CASE STUDYJiri Kraus, JURECA Porting and Tuning Workshop, June 7. 2016

ACCELERATED COMPUTING

CPUOptimized for Serial Tasks

GPU AcceleratorOptimized for Parallel Tasks

CPU Strengths

• Very large main memory

• Very fast clock speeds

• Latency optimized via large caches

• Small number of threads can run

very quickly

CPU Weaknesses

• Relatively low memory bandwidth

• Cache misses very costly

• Low performance per watt

GPU Strengths

• High bandwidth main memory

• Latency tolerant via parallelism

• Significantly more compute

resources

• High throughput

• High performance per watt

GPU Weaknesses

• Relatively low memory capacity

• Low per-thread performance

SPEED V. THROUGHPUT

Speed Throughput

*Images from Wikimedia Commons via Creative Commons

Which is better depends on your needs…

HOW GPU ACCELERATION WORKSApplication Code

GPU CPU

Compute-Intensive Functions

Rest of SequentialCPU Code

OPENACC DIRECTIVES

#pragma acc data copyin(a,b) copyout(c)

#pragma acc parallel

#pragma acc loop gang vector

for (i = 0; i < n; ++i) {

z[i] = x[i] + y[i];

Incremental

Single source

Interoperable

Performance portable

CPU, GPU, MIC

Manage

Movement

Initiate

Parallel

Execution

Optimize

Mappings

Identify Available

Parallelism

Express Parallelism

Express Data Movement

Optimize Loop

Performance

LBM D2Q37

D2Q37 model

Application developed at U Rome Tore Vergata/INFN,U Ferrara/INFN, TU Eindhoven

Reproduce dynamics of fluid by simulating virtual particles which collide and propagate

Simulation of large systems requires double precision computation and many GPUs

Lattice Boltzmann Method (LBM)

LBM D2Q37

MPI + OpenMP + vector intrinsics using AoS data layout

MPI + OpenACC using SoA data layout (this version, starting without OpenACC directives, was used for the following)

MPI + CUDA C using SoA data layout

OpenCL

Paper comparing these variants: Calore, E., Gabbana, A., Kraus, J., Schifano, S. F., & Tripiccione, R. (2016). Performance and portability of accelerated lattice Boltzmann applications with OpenACC. Concurrency and Computation: Practice and Experience.

Versions

LBM D2Q37 – INITIAL VERSIONCPU Profile (480x512) – 1 MPI rank

Application Reported Solvertime: 30.93 s

Method Time (s)

Initial

1 collide 17.56

2 propagate 13.11

3 bc 0.23

collide

propagate

LBM D2Q37

Enable OpenACC

-acc -ta=tesla

Enable Accelerator Information

-Minfo=accel

Change build environment

LBM D2Q37 – ACCELERATING COLLIDE

71:#pragma acc kernels pcopyin(prv[0:N]) pcopyout(nxt[0:N]) pcopyin(param[0:1])

72:#pragma acc loop independent

73:for ( ix = HX; ix < (HX+SIZEX); ix++) {

74: #pragma acc loop independent device_type(NVIDIA) vector(LOCAL_WORK_SIZEX)

75: for ( iy = HY; iy < (HY+SIZEY); iy++) {

76: site_i = ix*NY + iy;

77: rho = VZERO;

78: v = VZERO;

79: u = VZERO;

80: #pragma acc loop independent device_type(NVIDIA) seq

82: for( i = 0; i < NPOP; i++ ) {

LBM D2Q37 – ACCELERATING COLLIDE

collide:

40, include "lbm.c“

6, include "collide.h“

71, Generating copyin(prv[:9782208])

Generating copyout(nxt[:9782208])

Generating copyin(param[:1])

73, Loop is parallelizable

75, Loop is parallelizable

Accelerator kernel generated

Generating Tesla code

73, #pragma acc loop gang /* blockIdx.y */

75, #pragma acc loop gang, vector(256) /* blockIdx.x threadIdx.x */

Compiler Feedback (-Minfo=accel)

LBM D2Q37 – COLLIDE ACCELERATEDCPU Profile (480x512) – 1 MPI rank

Application Reported Solvertime: 17.03 s (Initial: 30.93 s)

Method Time (s)

collide

Time (s)

Initial

2 collide 3.67 17.56

1 propagate 13.08 13.11

3 bc 0.08 0.23

collide

propagate

LBM D2Q37 – ACCELERATING PROPAGATE

inline void propagate(const data_t* restrict prv, data_t* restrict nxt) {

int ix, iy, site_i;

#pragma acc kernels pcopyin(prv[0:NX*NY*NPOP]) pcopyout(nxt[0:NX*NY*NPOP])

#pragma acc loop independent device_type(NVIDIA) gang

for ( ix=HX; ix < (HX+SIZEX); ix++) {

#pragma acc loop independent device_type(NVIDIA) vector(LOCAL_WORK_SIZEX)

for ( iy=HY; iy < (HY+SIZEY); iy++) {

site_i = (ix*NY) + iy;

nxt[ site_i] = prv[ site_i - 3*NY + 1];

nxt[ NX*NY + site_i] = prv[ NX*NY + site_i - 3*NY ];

nxt[35*NX*NY + site_i] = prv[35*NX*NY + site_i + 3*NY ];

nxt[36*NX*NY + site_i] = prv[36*NX*NY + site_i + 3*NY - 1];

LBM D2Q37 – PROPAGATE ACCELERATEDCPU Profile (480x512) – 1 MPI rank

Application Reported Solvertime: 7.02 s (collide: 17.03 s)

Method Time (s)

+propagate

Time (s)

collide

Time (s)

Initial

1 collide 3.65 3.67 17.56

2 propagate 3.10 13.08 13.11

3 bc 0.19 0.08 0.23

collide

propagate

LBM D2Q37 – BC ACCELERATEDCPU Profile (480x512) – 1 MPI rank

Application Reported Solvertime: 14.96 s (propagate: 7.02 s)

Method Time (s)

Time (s)

+propagate

Time (s)

collide

Time (s)

Initial

2 collide 3.65 3.65 3.67 17.56

3 propagate 3.10 3.10 13.08 13.11

1 bc 8.18 0.19 0.08 0.23

collide

propagate

LBM D2Q37 – BC ACCELERATEDNVVP Timeline (480x512) – 1 MPI rank

$ srun -n 1 nvprof -o lbmD2Q37.bc.nvprof ./lbmD2Q37

LBM D2Q37 – BC ACCELERATEDNVVP Timeline (zoom) (480x512) – 1 MPI rank

$ srun -n 1 nvprof -o lbmD2Q37.bc.nvprof ./lbmD2Q37

Most of the time is

spend with copying

data between CPU

and GPU

LBM D2Q37 – OUTER DATA REGION

#pragma acc data copyin(f1[0:NX*NY*NPOP],param[0:1]) \

copy(f2[0:NX*NY*NPOP])

for ( i = 1; i <= NITER; i++ ) {

propagate( f2, f1 );

bc( f2, f1, param );

collide( f1, f2, param );

} // For cycle over NITER

LBM D2Q37 – BC ACCELERATEDNVVP Timeline (480x512) – 1 MPI rank

$ srun -n 1 nvprof -o lbmD2Q37.final.nvprof ./lbmD2Q37

No copies between

CPU and GPU during

simulation loop.

LBM D2Q37 – FINALCPU Profile (480x512) – 1 MPI rank

Application Reported Solvertime: 1.09 s (Initial: 30.93 s)

Method Time (s)

Time (s)

Initial

1 collide 0.69 17.56

2 propagate 0.11 13.11

3 bc 0.11 0.23

collide

propagate

LBM D2Q37 – FINAL

Calore, E., Gabbana, A., Kraus, J., Schifano, S. F., & Tripiccione, R. (2016). Performance and portability of accelerated lattice Boltzmann applications with OpenACC. Concurrency and Computation: Practice and Experience.

1920x2048 - 1 multi-threaded MPI rank

LBM D2Q37 – MULTI GPU

#pragma acc host_data use_device(f2)

for (pp = 0; pp < NPOP; pp++) {

MPI_Irecv(f2+(offRH+(pp*NX*NY)),3*NY,MPI_DOUBLE,rankR,0,

MPI_COMM_WORLD,req+pp);

MPI_Irecv(f2+(offLH+(pp*NX*NY)),3*NY, MPI_DOUBLE,rankL,0,

MPI_COMM_WORLD,req+NPOP+pp);

} for (pp = 0; pp < NPOP; pp++) {

MPI_Send(f2+(offLB+(pp*NX*NY)),3*NY,MPI_DOUBLE,rankL,0,MPI_COMM_WORLD);

MPI_Send(f2+(offRB+(pp*NX*NY)),3*NY,MPI_DOUBLE,rankR,0,MPI_COMM_WORLD);

} MPI_Waitall(2*NPOP,req,MPI_STATUS_IGNORE);

Inter GPU communication with CUDA-aware MPI

LBM D2Q37 – MULTI GPUHandling GPU AFFINITY

int rank = 0; int size = 1;

MPI_Init(&argc, &argv);

MPI_Comm_rank(MPI_COMM_WORLD, &rank);

MPI_Comm_size(MPI_COMM_WORLD, &size);

#if _OPENACC

int ngpus=acc_get_num_devices(acc_device_nvidia);

int devicenum=rank%ngpus;

acc_set_device_num(devicenum,acc_device_nvidia);

acc_init(acc_device_nvidia);

#endif /*_OPENACC*/

Alternative:int devicenum = atoi(getenv("MPI_LOCALRANKID"));

LBM D2Q37 – MULTI GPUStrong Scaling

1 GPUs (1/2 K80) 2 GPUs (1 K80) 4 GPUs (2 K80) 8 GPUs (4 K80)

1000 Steps - 1440x10240 Grid

Tesla K80 Linear

LBM D2Q37 – MULTI GPUOverlapping Communication and Computation

Grid size: 1920x2048

LBM D2Q37 – MULTI GPUOverlapping Communication and Computation

Grid size: 1920x2048

OPENACC QUICKSTART ON JURECA

git clone https://github.com/NVIDIA-OpenACC-Course/nvidia-advanced-openacc-

course-sources.git

module load PGI/16.3-GCC-4.9.3-2.25

module load MVAPICH2/2.2b-GDR

cd nvidia-advanced-openacc-course-sources/labs/

cd Advanced_Multi_GPU_Programming_with_MPI_and_OpenACC/C/task1/

make poisson2d

salloc -N 1 -n 4 -p develgpus --gres=gpu:4

srun ./poisson2d

Live Demo

NVIDIA APPLICATION LAB AT JÜLICH

Enable scientific application for GPU-based architectures

Provide support for their optimization

Investigate performance and scaling

Collaboration between JSC and NVIDIA since July 2012

Dirk Pleiter (JSC)

Jiri Kraus (NVIDIA)

Andreas Herten (JSC)

Andrew V. Adinetz (JSC)* * untill April 2015

OPENACC TRAINING COURSE

Begin: 24.Oct.2016 09:00

End: 25.Oct.2016 16:30

Venue: Jülich Supercomputing Centre, Ausbildungsraum 1, building 16.3, room 213a

Target audience: Scientists who want to use GPU systems with OpenACC

Contact: Andreas Herten a.herten@fz-juelich.de

http://www.fz-juelich.de/SharedDocs/Termine/IAS/JSC/EN/courses/2016/gpu-openacc-2016.html

Introduction to GPU programming using OpenACC

GPU Programming with OpenACC: A LBM Case Study

Documents

Transcript of GPU Programming with OpenACC: A LBM Case Study

Optimizing a LBM code for Compute Clusters with Kepler GPUs · Optimizing a LBM code for Compute Clusters with Kepler GPUs Author: Jiri Kraus Subject: To fully utilize a GPU Cluster

GPU COMPUTING - Normandie - Sciencesconf.org...2 3 4 1 1. Review available GPU-accelerated applications 2. Check for GPU-Accelerated applications and libraries 3. Add OpenACC Directives

Parallel Compu,ng with OpenACC...GPU Large Scale of applications Genomics Deep Learning Costal Storm Predicon Many-Core CPU (Intel Xeon Phi) Multi-Core CPU OpenMP OpenACC Phi Direcves

Lecture 4: Advanced OpenACC Techniques November 12, 2015on-demand.gputechconf.com/gtc/2015/webinar/openacc... · Lecture 4: Advanced OpenACC Techniques November 12, 2015 OpenACC Course.

Scalable Lattice Boltzmann Solvers for CUDA GPU Clusters · project [1], which aims at providing a comprehensive framework for eﬃcient GPU implementations of the LBM. The remainder

Introduction to OpenACC - Boston UniversityGPU is an accelerator •GPU is a device on a CPU-based system. GPU is connected to CPU through PCI bus. •Computer program can be parallelized

GPU Computing with OpenACC Directives. 1,000,000’s Early Adopters Time Research Universities Supercomputing Centers Oil & Gas CAE CFD Finance Rendering.

DirectivebasedAccelerator ProgrammingWith OpenACC- · MathewColgrove’’ mathew.colgrove@pgroup.com’ July’2013’ DirectivebasedAccelerator ProgrammingWith OpenACC-

LBM BASED FLOW SIMULATION USING GPU ...fdubois/...LBM BASED FLOW SIMULATION USING GPU COMPUTING PROCESSOR CETHIL UMR5008 Frédéric Kuznik , frederic.kuznik@insa-lyon.fr 11 LBE Workshop

OpenACC Highlights - February

PGPROF OpenACC Tutorial

Porting VASP to GPU using OpenACC · VASP on GPU •VASP has organically grown over more than 25 years (450k+ lines of Fortran 77/90/2003/2008/… code) •Current release: some features

Introduction of Openacc for Directives Based GPU AccelerationApr 21, 2015 · INTRODUCTION OF OPENACC FOR DIRECTIVES-BASED GPU ACCELERATION NASA Ames Applied Modeling & Simulation

Progress Porting WRF to GPU using OpenACC · WRF Porting Plan WRF developers interested in GPU port if performance is suitable. OpenACC extensions are acceptable because: This is

GPU Computing: A Quick Start - LBM Workshoplbmworkshop.com/wp-content/uploads/2011/08/OrestShardt-GPU...GPU Computing: A Quick Start ... From NVIDIA CUDA C Programming Guide ... Processing

ADVANCED OPENACC PROGRAMMING€¦ · OPENACC: THE STANDARD FOR GPU DIRECTIVES Simple: Directives are the easy path to accelerate compute intensive applications Open: OpenACC is an

INTRODUCTION TO OPENACC - ACCRE VanderbiltOpenMP, MPI and CUDA. Ver 1.0 Nov 2011 Ver 2.0 Jun 2013 Ver 2.5 Oct 2015 IT IS NOT GPU PROGRAMMING! ONLY EXPRESS PARALLELISM OpenACC directives...serial

GPU Computing with OpenACC Directives

INTRODUCTION TO OPENACC · 2016-10-26 · 5 Today’s Objectives Understand what OpenACC is and why to use it Understand some of the differences between CPU and GPU hardware. Know

GPU Computing with OpenACC Directives - psc.edu · Targeting the Architecture (But Not Admitting It) Part of the awesomeness of OpenACC has been that you have been able to ignore