Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

37
Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic Arhitectura Sistemelor de Calcul 25. Descrierea celor mai rapide 10 sisteme de calcul din lume la momentul actual, din TOP500

Transcript of Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

Page 1: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic

Arhitectura Sistemelor de Calcul

25. Descrierea celor mai rapide 10 sisteme de calcul din lume la momentul actual, din TOP500

Page 2: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

2

10 – Cielo Cray XE6 • Site: DOE/National Nuclear SA/Los Alamos/Sandia • Familia de sisteme: Cray XE • Model: Cray XE6 • Procesor: AMD Opteron 8-core 2.4 GHz 9.6GFlops • OS: Linux • Arhitectura: MPP • Aplicatii: Cercetare • Anul instalarii: 2010 • Numar de core-uri: 107.152 • Rmax(TFlops): 816.660 • Rpeak(TFlops): 1.028.660 • Consum: 2.950 KW • Interconectare: Custom

Page 3: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

3

9 – Jugene BlueGene/P • Site: Forschungszentrum Juelich (FZJ) • Familia de sisteme: IBM BlueGene/P • Model: eServer Blue Gene/P Solution • Procesor: PowerPC 450 850MHz • OS: CNK/SLES 9 • Arhitectura: MPP • Aplicatii: Cercetare • Anul instalarii: 2009 • Numar de core-uri: 294.912 • Rmax(TFlops): 825.500 • Rpeak(TFlops): 1.002.701 • Consum: 2.268 KW • Interconectare: Proprietary

Page 4: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

4

Arhitectura IBM BlueGene • Program initiat de IBM in 1999 pentru a construi “a petaflop

scale machine” • BlueGene/L – primul pas, bazat pe procesoare PowerPC

– Spatiu de adresare mare – Compilatoare standard – Bazat pe middleware de “message passing” deja existent – A necesitat adaugiri semnificative fata de sistemul PowerPC standard

• Un nod computational = computer-on-a-chip – ASIC: – Procesoare CMOS (IBM PowerPC 440 700 MHz ): 2 CPU/Chip – Memorie DRAM embedded – L1-3 cache embedded – Multiple module de interconectare folosind retele de comutare de

mare viteza

Page 5: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

5

Arhitectura IBM BlueGene (2) • Cache pe procesor: 32k/32k L1 cache, 2k L2 cache – comunica printr-un

modul SRAM rapid cu celalalt cache – 4MB L3 cache comun pentru cele 2 procesoare – L2 si L3 sunt coerente intre cele doua procesoare

• Memorie: 512 MB DDR RAM pe card cu bandwidth de 5.5 GB/s → 32768 GB – Controler de memorie externa de tip DDR integrat on-chip

• Interconectare: – Tor 3D cu un router pe nod (32 x 32 x 64) – Procesor I/O dedicat - un proces/nod, 2 thread-uri/proces

• I/O extern: – Noduri dedicate pentru I/O extern – Reteaua este de tip arborescent – Se foloseste gigabit Ethernet & un adaptor pentru reteaua JTAG

• OS – “Unix-like environment” functionalitatile OS distribuite intre nod-ul de calcul si nodul

de I/O – CNK (Compute Node Kernel) – Linux

• Software – MPI – Co-arrays – UPC

Page 6: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

6

Arhitectura IBM BlueGene (3)

Page 7: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

7

Retele de Comunicatie IBM BlueGene

• Nodurile sunt atasate la 5 retele de comunicatie: – Retea toroidala 3D pentru

comunicatii intre noduri (175MB/s) – Retea colectiva de

comunicatii (350MB/s) – Retea globala de intreruperi si

bariere – Pentru I/O – Gigabit Ethernet – Joint Test Access GroupGigabit

Ethernet – pentru control si monitorizare

Page 8: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

8

• Favorizeaza aplicatii care utilizeaza comunicarea cu vecinii imediati • BlueGene e dezvoltat pentru aplicatii cu volum mare de date

– Analiza proteinelor • Interactiunea intre medicamente si proteine • Catalizarea enzimelor • Rafinarea structurilor moleculare • Identificarea parametrilor unor structuri folosite in recunoasterea

“impaturirii” unor proteine • Identificarea parametrilor in structuri din bazele de date de chimie

– Modelare si simulare – Data Mining – Fizica atomica: similar cu ASC Purple – Dinamica moleculara (inclusiv ab-initio) – Hidrodinamica steady state si turbulenta – Astrofizica

• Daca cercetarile vor avea succes se vor putea vindeca boli precum – Alzheimer – Fibroza cistica – Boala vacii nebune

Aplicatii IBM BlueGene

Page 9: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

9

8 – Kraken Cray XT5 • Site: National Institute for Computational Sciences – University of

Tennessee • Familia de sisteme: Cray XT5-HE • Model: Cray XT5 QuadCore • Procesoare: AMD Opteron SixCore 2.6 GHz • OS: Linux • Arhitectura: MPP • Aplicatii: Cercetare • Anul instalarii: 2009 • Numar de procesoare: 98.928 • Rmax(GFlops): 831.700 • Rpeak(GFlops): 1.028.851 • Consum: 3090 KW • Interconectarea: Cray XT5 Internal Interconnect

Page 10: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

10

Arhitectura Cray XT5

Page 11: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

11

Arhitectura Cray XT5

Page 12: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

12

7 – RoadRunner • Site: DOE/NNSA/Los Alamos NL • Familia de sisteme: • Model: BladeCenter QS22 Cluster • Procesoare: PowerXCell 8i 3.2 GHz • OS: Linux • Arhitectura: Cluster • Memorie: 104TB • Aplicatii: Cercetare • Anul instalarii: 2008 • Numar de procesoare: 122.400 • Rmax(PFlops): 1,042 (NMax 2,25M) • Rpeak(PFlops): 1,376 • Consum: 2345 KW • Interconectarea: Voltaire Infiniband

Page 13: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

13

Arhitectura RoadRunner

Page 14: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

14

De ce RoadRunner?

Page 15: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

15

RoadRunner HW/SW

Page 16: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

16

Programare RoadRunner

Page 17: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

17

Programare Hibrida pe RoadRunner

Page 18: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

18

Aplicatii RoadRunner

Page 19: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

19

6 – Terra 100 Bull • Site: Commissariat a l'Energie Atomique (CEA) • Familia de sisteme: Bull SA • Model: Bull Bullx super-node S6010/S6030 • Procesoare: Intel EM64T Xeon 75xx (Nehalem-EX) 2.26GHz • OS: Linux • Arhitectura: Cluster • Aplicatii: Cercetari militare • Anul instalarii: 2010 • Numar de core-uri: 138.368 • Rmax(PFlops): 1,05 (NMax 4,93M) • Rpeak(PFlops): 1,255 • Consum: 4590 KW • Interconectare: Infiniband QDR • Memorie principala: 29904GB

Page 20: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

20

Tera-100 – Aplicatii • Destinat in principal simularilor de arme nucleare • Investigarea momentelor premergatoare unei detonari

nucleare • Simularile informatice sunt realizate pe baza modelelor fizice

si matematice dezvoltate de catre CEA • Datele initiale utilizate sunt

– Cele ale experimentelor din Oceanul Pacific din 1995 si 1996 – Cele obtinute cu detectorul Airix & Laser Megajoule in locatiile din

Moronvillers – Laserul Megajoule permite de asemenea crearea de date, mai ales legate de

fuziunea nucleara, utilizata in bombele cu Hidrogen

• Arhitectura Tera-100: – 4,300 de Servere Bullx S Series – Memorie Principala 300TB – Capacitate de stocare de peste 20PB – Bandwidth la sistemul global de fisiere 500GB/sec – cel mai rapid din lume la

ora actuala (utilizand LustreFS) – Dezvoltat in totalitate in Uniunea Europeana (in afara de procesoarele Intel)

Page 21: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

21

5 – Hopper Cray XE6 • Site: National Energy Research Scientific Computing Center • Familia de sisteme: Cray XE • Model: Cray XE6 • Procesor: AMD Opteron 2.1 GHz • OS: Linux • Arhitectura: MPP • Aplicatii: Cercetare • Anul instalarii: 2010 • Numar de core-uri: 153.408 • Rmax(TFlops): 1.054.000 (NMax 4.58M) • Rpeak(TFlops): 1.288.630 • Consum: 2910 KW • Nmax (HPL): 2.504.421 • Interconectare: Custom

Page 22: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

22

Hopper – Interconnect

Page 23: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

23

Hopper – Diagrama Sistemului I/O

Page 24: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

24

Hopper – Aplicatii • Explicarea LED-Efficiency-Droop

Electron + Electron hole Electron + hole + carrier = light = no light + vibrations • Detectie de particule “grele”

Page 25: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

25

Hopper – Aplicatii (2) • Simularea “accelerarii” acceleratoarelor de particule (LHC)

Laser plasma wakefiled • “Calare” pe o raza de lumina… timpul se opreste si spatiul

se contracta

Page 26: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

26

Hopper – Aplicatii (3) • Detectarea unor galexii satelit formate din “materie neagra”

Page 27: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

27

4 – Tsubame 2.0 NEC/HP • Site: GSIC Center, Tokyo Institute of Technology • Familia de sisteme: HP Cluster Platform 3000SL • Model: Cluster Platform SL390s G7 • Procesoare: Intel EM64T Xeon X56xx 2.93GHz / Nvidia GPU • OS: Linux • Arhitectura: Cluster • Aplicatii: Cercetare / Academic • Anul instalarii: 2010 • Numar de procesoare: 73.278 • Rmax(PFlops): 1,192 (NMax 2.49M) • Rpeak(PFlops): 2,287 • Consum: 1399 KW • Interconectarea: Infiniband QDR

Page 28: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

28

Tsubame 2.0 – Arhitectura

Page 29: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

29

3 – Nebulae • Site: National Supercomputing Centre in Shenzhen (NSCS) • Familia de sisteme: Dawning Cluster • Model: Dawning TC3600 Blade System • Procesoare: Intel X5650 2.66GHz, NVidia Tesla C2050 GPU • OS: Linux • Arhitectura: Cluster • Aplicatii: Cercetare • Anul instalarii: 2010 • Numar de core-uri: 120.640 • Rmax(PFlops): 1.271 (NMax 2.36M) • Rpeak(PFlops): 2.984 • Consum: 2580 KW • Interconectarea: Infiniband QDR

Page 30: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

30

Nebulae – Aplicatii

Page 31: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

31

2 – Jaguar Cray XT5 • Site: Oak Ridge National Laboratory • Familia de sisteme: Cray XT5-HE • Model: Cray XT5 QuadCore • Procesoare: AMD Opteron SixCore 2.6 GHz • OS: Linux • Arhitectura: MPP • Aplicatii: Cercetare • Anul instalarii: 2009 • Numar de core-uri: 224.162 • Rmax(PFlops): 1.76 (NMax 5.47M) • Rpeak(PFlops): 2.331 • Consum: 6950 KW • Interconectarea: Cray XT4 Internal Interconnect (SeaStar2)

Page 32: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

32

Jaguar – Aplicatii (1)

Prima simulare a schimbarii abrupte de clima

Topirea Groenlandei

Page 33: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

33

Jaguar – Aplicatii (2)

Studiul Supernovelor – evolutie asimetrica in functie de masa

Page 34: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

34

Jaguar – Aplicatii (3)

Simularea perioadei de injumatatire de la Carbon-14 la Azot-14 (+ electron/neutrino)

Page 35: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

35

Jaguar – Aplicatii (4)

De la fotosinteza la combustibil biologic (Etanol): Celuloza (albastru) & Molecule de Lignina

Page 36: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

36

Jaguar – Aplicatii (5)

Simulare 3D al microturbulentei in plasma in reactoare cu fuziune – foarte intensive I/O

Page 37: Arhitectura Sistemelor de Calcul 25. Descrierea celor mai ...

37

1 – Tianhe-1A TH MPP • Site: National SuperComputer Center in Tianjin/NUDT • Familia de sisteme: NUDT Cluster • Model: NUDT YH MPP • Procesor: Intel Xeon 5670 2.93Ghz 6C, NVIDIA GPU • OS: Linux • Arhitectura: MPP • Aplicatii: Cercetare • Anul instalarii: 2010 • Numar de core-uri: 186.368 • Rmax(PFlops): 2,566 (NMax 3,6M) • Rpeak(PFlops): 4,701 • Consum: 4040 KW • Interconectare: Infiniband DDR 4x