O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

42

OPTIMIZING LU FACTORIZATION IN CILK++ Nathan Beckmann Silas Boyd-Wickizer

Upload
claude-burns
Category

Documents
view
213
download
0

Embed Size (px):

Transcript of O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

Page 1: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

OPTIMIZING LU FACTORIZATION IN CILK++Nathan Beckmann

Silas Boyd-Wickizer

Page 2: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

THE PROBLEM

LU is a common matrix operation with a broad range of applications Writes matrix as a product of L and U

Example:PA= LU

a11 a12 a13

a21 a22 a23

a31 a32 a33

0 1 0

1 0 0

0 0 1

l11 0 0

l21 l22 0

l31 l32 l33

u1

1

u1

2

u1

3

0 u2

2

u2

3

0 0 u3

3

Page 3: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

THE PROBLEM

Page 4: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

THE PROBLEM

Page 5: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

THE PROBLEM

Page 6: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

THE PROBLEM

Small parallelism

Small parallelism

Big parallelism

Page 7: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

OUTLINE

Overview

Results

Conclusion

Page 8: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

OVERVIEW

Four implementations of LU PLASMA (highly optimized third party library) Sivan Toledo’s algorithm in Cilk++ (courtesy of

Bradley) Parallel standard “right-looking” in Cilk++ Right-looking in pthreads

All implementations use same base case GotoBLAS2 matrix routines

Analyze performance Machine architecture Cache behavior

Page 9: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

OUTLINE

Overview

Results Summary Architectural heterogeneity Cache effects Parallelism Scheduling Code size

Conclusion

Page 10: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

METHODOLOGY

Machine configurations: AMD16: Quad-quad AMD Opteron 8350 @ 2.0

GHz Intel16: Quad-quad Intel Xeon E7340 @ 2.0 GHz Intel8: Dual-quad Intel Xeon E5530 @ 2.4 GHz

Xen indicates running a Xen-enabled kernel All tests still ran in dom0 (outside virtual

machine)

Page 11: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

PERFORMANCE SUMMARY

Quite significant performance heterogeneity by machine architecture

Large impact from caches

LU performace (gflops on 4k x 4k, 8 cores)

AMD16 Intel16 Intel16Xen Intel8Xen

PLASMA 28.7 21.5 20.6 31.1

Toledo 17.2 19.6 17.4 32.5

Right 7.72 8.53 7.38 23.2

Pthread 12.5 11.2 10.8 22.1

Page 12: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

LU SCALING

Page 13: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

OUTLINE

Overview

Results Summary Architectural heterogeneity Cache effects Parallelism Scheduling Code size

Conclusion

Page 14: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

ARCHITECTURAL VARIATION (BY ARCH.)

AMD16 Intel16

Intel8Xen

Page 15: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

ARCHITECTURAL VARIATION (BY ALG’THM)

Page 16: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

XEN INTERFERENCE

Strange behavior with increasing core count on Intel16

Intel16Xen

Intel16

Page 17: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

OUTLINE

Overview

Results Summary Architectural heterogeneity Cache effects Parallelism Scheduling Code size

Conclusion

Page 18: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

CACHE INTERFERENCE

Noticed scaling problem with Toledo algorithm

Tested with matrices of size 2n

Caused conflict misses in processor cache

Page 19: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

CACHE INTERFERENCE: EXAMPLE

AMD Opteron has 64 byte cache lines and a 64 Kbyte 2-way set associative cache:

512 sets, 2 cache lines each Every 32Kbyte (or 4096 doubles) map to the

same set

offsetsettag

056141563

Page 20: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

CACHE INTERFERENCE: EXAMPLE

4096 elements

Page 21: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

CACHE INTERFERENCE: EXAMPLE

4096 elements

Page 22: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

CACHE INTERFERENCE: EXAMPLE

4096 elements

Page 23: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

CACHE INTERFERENCE: EXAMPLE

4096 elements

Page 24: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

CACHE INTERFERENCE: EXAMPLE

4096 elements

Page 25: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

CACHE INTERFERENCE: EXAMPLE

4096 elements

Page 26: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

CACHE INTERFERENCE: EXAMPLE

4096 elements

Page 27: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

SOLUTION: PAD MATRIX ROWS

4096 elements

8 element pad

Page 28: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

SOLUTION: PAD MATRIX ROWS

4096 elements

8 element pad

Page 29: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

SOLUTION: PAD MATRIX ROWS

4096 elements

8 element pad

Page 30: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

SOLUTION: PAD MATRIX ROWS

4096 elements

8 element pad

Page 31: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

CACHE INTERFERENCE (GRAPHS)

Before:

After:

Page 32: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

OUTLINE

Overview

Results Summary Architectural heterogeneity Cache effects Parallelism Scheduling Code size

Conclusion

Page 33: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

PARALLELISM

Toledo shows higher parallelism, particularly in burdened parallelism and large matrices

Still doesn’t explain poor scaling of right at low numbers of cores

Matrix Size Toledo Right-looking

Parallelism Burdened Parallelism

Parallelism Burdened Parallelism

2048x2048 15.8 15.5 16.0 12.2

4096x4096 38.1 37.4 34.6 26.0

8192x8192 92.6 91.1 72.8 57.3

Page 34: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

SYSTEM FACTORS (LOAD LATENCY)

Performance of Right relative to Toledo

Page 35: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

SYSTEM FACTORS (LOAD LATENCY)

Performance of Tile relative to Toledo

Page 36: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

OUTLINE

Overview

Results Summary Architectural heterogeneity Cache effects Parallelism Scheduling Code size

Conclusion

Page 37: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

SCHEDULING

Cilk++ provides dynamic scheduler

PLASMA, pthread use static schedule

Compare performance under multiprogrammed workload

Page 38: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

SCHEDULING GRAPH

Cilk++ implementations degrade more gracefully PLASMA does OK; pthread right (“tile”) doesn’t

Page 39: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

OUTLINE

Overview

Results Summary Architectural heterogeneity Cache effects Parallelism Scheduling Code size

Conclusion

Page 40: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

CODE STYLE

* Includes base case wrappers

Comparing different languages

Expected large difference, but they are similar Complexity is in base case Base cases are shared

Lines of Code

Toledo Right-looking

PLASMA Pthread Right

Just LU 111 121 143 134

Everything 238 257 269 934*

Page 41: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

CONCLUSION

Cilk++ can perform competitively with optimized math libraries

Cache behavior is most important factor

Cilk++ shows better performance degradation with other things running Especially compared to hand-coded pthread

versions

Code size not a major factor

Page 42: O PTIMIZING LU F ACTORIZATION IN C ILK ++ Nathan Beckmann Silas Boyd-Wickizer.

ersp ectiv - ri.cmu.edu · P ersp ectiv eF actorization Metho ds for Euclidean Reconstruction Mei Han T ak eo Kanade August 1999 CMU-RI-TR-99-22 The Rob otics Institute Carnegie Mellon

ersp ectiv - ri.cmu.edu · P ersp ectiv eF actorization Metho ds for Euclidean Reconstruction Mei Han T ak eo Kanade August 1999 CMU-RI-TR-99-22 The Rob otics Institute Carnegie Mellon

PTIMIZING AND SATISFICING THE INTERPLAY …...Esteve Almirall ESADE Business School, Universitat Ramon Llull, Av. Toree Blanca 59, SantCugat-Barcelona, SPAIN {esteve.almirall@esade.edu}

PTIMIZING AND SATISFICING THE INTERPLAY …...Esteve Almirall ESADE Business School, Universitat Ramon Llull, Av. Toree Blanca 59, SantCugat-Barcelona, SPAIN {[email protected]}

C OUPLING C HEMICAL T RANSPORT M ODEL S OURCE A TTRIBUTIONS WITH P OSITIVE M ATRIX F ACTORIZATION : A PPLICATION TO TWO IMPROVE SITES IMPACTED BY WILDFIRES.

C OUPLING C HEMICAL T RANSPORT M ODEL S OURCE A TTRIBUTIONS WITH P OSITIVE M ATRIX F ACTORIZATION : A PPLICATION TO TWO IMPROVE SITES IMPACTED BY WILDFIRES.

Afternoon Session - California BioMass Collaborative ...Mark Nechodom, USFS 202 Regional Cooperation for Energy and Environmental Management 214 Doug Wickizer, CDF 214 IV. Financing

Afternoon Session - California BioMass Collaborative ...Mark Nechodom, USFS 202 Regional Cooperation for Energy and Environmental Management 214 Doug Wickizer, CDF 214 IV. Financing

(i) Right-looking Cholesky (ii) Left-looking Cholesky · 2017. 2. 14. · oking Cholesky F actorization do J N do L JN do K J S ALJ ALJ ALKAJK S AJJ sqrt AJJ do I JN S AIJ AIJ AJJ

(i) Right-looking Cholesky (ii) Left-looking Cholesky · 2017. 2. 14. · oking Cholesky F actorization do J N do L JN do K J S ALJ ALJ ALKAJK S AJJ sqrt AJJ do I JN S AIJ AIJ AJJ

PTIMIZING DISTRIBUTOR PROFITABILITY RESEARCH …distributorsedge.com/...Distributor_Profitability_Research... · activity in the industry and understand potential distributor profitability.

PTIMIZING DISTRIBUTOR PROFITABILITY RESEARCH …distributorsedge.com/...Distributor_Profitability_Research... · activity in the industry and understand potential distributor profitability.

… · Web viewAnd what is expected of you? Well, you do have to rise and shine by 9:00 am, ... Word search puzzle books. ... Phil Colmer. Murray Tyrrell. Hope Wickizer.

… · Web viewAnd what is expected of you? Well, you do have to rise and shine by 9:00 am, ... Word search puzzle books. ... Phil Colmer. Murray Tyrrell. Hope Wickizer.

G PTIMIZING THE FFECTIVENESS AND FFICIENCY OF ROADWAY LIGHTING · 2012. 6. 14. · lighting policies, practices, technologies, and visual efficacy that could assist lighting decision-makers

G PTIMIZING THE FFECTIVENESS AND FFICIENCY OF ROADWAY LIGHTING · 2012. 6. 14. · lighting policies, practices, technologies, and visual efficacy that could assist lighting decision-makers

T OWARDS S ELF -O PTIMIZING F RAMEWORKS FOR C OLLABORATIVE S YSTEMS Sasa Junuzovic (Advisor: Prasun Dewan) University of North Carolina at Chapel Hill.

T OWARDS S ELF -O PTIMIZING F RAMEWORKS FOR C OLLABORATIVE S YSTEMS Sasa Junuzovic (Advisor: Prasun Dewan) University of North Carolina at Chapel Hill.

Mobile matters: Optimizing search for mobile devicessuccess.adobe.com/assets/en/.../18815_adlens_mobile... · Mobile a˜ers: ptimizing search or obile devices Webcast uide 6 Why mobile

Mobile matters: Optimizing search for mobile devicessuccess.adobe.com/assets/en/.../18815_adlens_mobile... · Mobile a˜ers: ptimizing search or obile devices Webcast uide 6 Why mobile

Dirty Pixels: ptimizing Image Classification Architectures ...

Dirty Pixels: ptimizing Image Classification Architectures ...

Your SEO TRAFFIC - WordPress.com...How to increase your SEO Traffic in 30 days OnPage.org & HubSpot 3 O ptimizing your website for search engines can be difficult, especially with

Your SEO TRAFFIC - WordPress.com...How to increase your SEO Traffic in 30 days OnPage.org & HubSpot 3 O ptimizing your website for search engines can be difficult, especially with

RCU in the Linux Kernel: One Decade Later by: Paul E. Mckenney, Silas Boyd-Wickizer, Jonathan Walpole Slides by David Kennedy (and sources)

RCU in the Linux Kernel: One Decade Later by: Paul E. Mckenney, Silas Boyd-Wickizer, Jonathan Walpole Slides by David Kennedy (and sources)

O PTIMIZING C HANNEL C OMPENSATION T EXAS A&M – NAW R ESEARCH C ONSORTIUM B EST P RACTICES IN DEMONSTRATING VALUE AND CREATING FAIR COMPENSATION FOR CHANNEL.

O PTIMIZING C HANNEL C OMPENSATION T EXAS A&M – NAW R ESEARCH C ONSORTIUM B EST P RACTICES IN DEMONSTRATING VALUE AND CREATING FAIR COMPENSATION FOR CHANNEL.

A New Look at Ways to Minimize Work Disability and Job ... · role in healthcare delivery and RTW. 8. ... Thomas Wickizer, PhD, Chair and Stephen F. LoebsProfessor Division of Health

A New Look at Ways to Minimize Work Disability and Job ... · role in healthcare delivery and RTW. 8. ... Thomas Wickizer, PhD, Chair and Stephen F. LoebsProfessor Division of Health

Jan., 2006, John A. Crain, Ed.D. 1 S.P.O.T. A Leader Days 3-4: Instruction S ystemic P ursuit O ptimizing T eaching in Texas.

Jan., 2006, John A. Crain, Ed.D. 1 S.P.O.T. A Leader Days 3-4: Instruction S ystemic P ursuit O ptimizing T eaching in Texas.

Rethinking the Library OS from the Top Downporter/pubs/p291-porter.pdf · 2016-07-29 · Rethinking the Library OS from the Top Down Donald E. Porter†, Silas Boyd-Wickizer‡, Jon

Rethinking the Library OS from the Top Downporter/pubs/p291-porter.pdf · 2016-07-29 · Rethinking the Library OS from the Top Down Donald E. Porter†, Silas Boyd-Wickizer‡, Jon

ABORATORIES FOR THE 21ST ENTURY B EST P …i2sl.org/documents/toolkit/bp_opt_vent_508.pdfl aboratories for the 21. st. c. entury : b. est. p. ractice. g. uide. o. ptimizing. l. aboratory.

ABORATORIES FOR THE 21ST ENTURY B EST P …i2sl.org/documents/toolkit/bp_opt_vent_508.pdfl aboratories for the 21. st. c. entury : b. est. p. ractice. g. uide. o. ptimizing. l. aboratory.

Corey: An Operating System For Many Corescourses.cs.vt.edu/cs5204/fall14-butt/lectures/corey.pdf · Corey: An Operating System For Many Cores Silas Boyd-Wickizer˚ Haibo Chen‡ Rong

Corey: An Operating System For Many Corescourses.cs.vt.edu/cs5204/fall14-butt/lectures/corey.pdf · Corey: An Operating System For Many Cores Silas Boyd-Wickizer˚ Haibo Chen‡ Rong

Clean Water Campaign 2012 Tony Szilagye Water Committee Chair Matt Trokan Conservation Manager Ben Wickizer Conservation Coordinator.

Clean Water Campaign 2012 Tony Szilagye Water Committee Chair Matt Trokan Conservation Manager Ben Wickizer Conservation Coordinator.

Languages

Pages

Legal

Copyright © 2022 FDOCUMENTS