Ingeniería guiada por Modelado y Simulación de Eventos ... · Ingeniería guiada por Modelado y...
Transcript of Ingeniería guiada por Modelado y Simulación de Eventos ... · Ingeniería guiada por Modelado y...
Ingeniería guiada por Modelado y Simulación de Eventos Discretos:
Lic. Matias Bonaventura Universidad de Buenos Aires, Argentina
CERN, Suiza
Metodología y Caso de Estudio en la Red de Datos del Experimento ATLAS
Dr. Rodrigo CastroUniversidad de Buenos Aires
CONICET, Argentina
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 2
CERN Gran Colisionador de Hadrones
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 3
CERN Experimento ATLAS
Colisiones a una frecuencia de aproximadamente 40 MHzSe generan aproximadamente 60 TeraBytes por segundo
(Equivalen a ~12.000 DVDs por segundo)
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 4
CERN High Level Trigger and Data Acquisition(TDAQ)
Requerimientos Principales:• Reducir la cantidad de
información a almacenar
(Filtrar eventos)
• Las PU deben filtrar en
promedio con tiempo menor
a ~300ms
ProcessingUnit (PU)
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 5
CERN Requerimientos y Metodología
Contexto
• Evolución constante de hardware y algoritmos de control
• Imposible predecir el impacto en las aplicaciones y en el
flujo de datos antes de ponerlos en producción
Requerimientos
(REQ 1) Poder evaluar cambios propuestos para la red y los algoritmos antes de su instalación
• Reaccionar de manera temprana ante riesgos
(REQ 2) Definir anticipadamente las pruebas a realizar durante el lapso de disponibilidad
• Aprovechar la ventana de prueba enfocando en las preguntas más relevantes
(REQ 3) Flexibilidad para la elección del nivel de detalle/precisión de las evaluaciones
• Poder adaptarse dinámicamente a distintas complejidades de las modificaciones a evaluar,
y a cambios de cronograma
• HLT está disponible para pruebas en períodos limitados
• Retrasa las tareas de prueba y verificación de nuevos algoritmos de control
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 6
• DEVS permite:• Representar exactamente cualquier tipo
de sistema discreto• Aproximar sistemas continuos con
cualquier precisión deseada• Sistemas híbridos pueden interactuar en la
misma simulación
Simulación de Eventos Discretos DEVS & PowerDEVS
• DEVS = Discrete EVent Systems specification (Bernard Zeigler, ’76, ‘90, 2000)
• Basado en principios de la Teoría General de Sistemas
Tiempo Discreto Eventos Discretos Continuo
Herramienta PowerDEVS (open source):• De propósito general para M&S DEVS,
orientada a la simulación de sistemas híbridos
• Incluye una librería de modelos para redes de datos
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 7
Metodología propuesta Descripción• Basado en el Marco Formal
DEVS y Metodologías Agiles para proyectos de software
• Marco formal DEVS: define la interacción entre las entidades formales Modelo, Sistema y Simulador
• Ciclos iterativos: integra el marco formal DEVS con diferentes etapas del proyecto de M&S (Construcción, Hipotetización y Exploración)
• Fases: enmarcan las tareas del proyecto según las necesidades de M&S: Desarrollo de la Herramienta y Estudio del problema
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 8
Metodología propuesta Beneficios• El simulador permite:
• Ensayar tempranamente y sin restricciones temporales propuestas de
innovaciones (REQ 1)
• Obtener conclusiones que guíen al diseño, implementación y pruebas de
cambios sobre la infraestructura real (REQ 2)• Construir una base de conocimiento no ambigua, reusable y organizada del sistema
• Unifica conceptos dentro del equipo interdisciplinario de científicos de TDAQ
• Un proceso iterativo permite:• Tomar conocimiento paulatinamente del sistema y la organización
• Reproducir características más relevantes del sistema en las primeras etapas (REQ 2)
• Comenzar con un alto nivel de abstracción e incrementarlo gradualmente (REQ 3)
• Las fases permiten:• Enfocar los esfuerzos en el desarrollo del modelo (TDAQ en el caso de estudio)
• Desarrollar soluciones genéricas para las herramientas teóricas y prácticas
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 9
Caso de Estudio: Flujo y Red de datos en ATLAS TDAQ
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 10
Caso de Estudio Flujo y red de datos en TDAQ
• Latencia de red (principal foco de estudio)• Ráfagas en la dirección ROS->DCM• TcpIncast: Descarte de paquetes (saturación de
buffers), aumenta la latencia 10 a 100 veces.• Algoritmos de control: créditos DCM, asignación
HLTSV)
Predicción de performance = Latencia de filtrado de eventos
HLTSV=High Level Trigger Supervisor PU = Processing Unit DCM=Data Collection Manager ROS=Read Out System
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 11
Caso de Estudio Primera Iteración: Construcción del modelo
Ciclo de Construcción (azul)Marco Experimental: 1 DCM, 1PU, 200 ROS
• <100 créditos: alta latencia por grandes colas en el DCM
• <600 créditos: latencia mínima• >600 créditos: mayor latencia por
congestión, descartes de paquetes y retransmisiones
Barrida de Créditos del DCM
1) Observación del sistema real (experimentación y medición)
Latencia individual
Latencia media
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 12
Caso de Estudio Primera Iteración: Construcción del modelo
2) Implementación del modelo
• Semántica del sistema real, estructura (jerárquica según DEVS) y comportamiento
• Utiliza código C++ de componentes reales
• Fase de Herramienta: desarrollo de modelos genéricos de TCP, colas y herramientas de Scilab
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 13
Caso de Estudio Primera Iteración: Construcción del modelo
3) Medición y validación de la simulación
• Comportamiento similar en el rango 0-600 de créditos iniciales
• Promedio de latencias• Latencias individuales• Ocupación de colas (no
es posible observar en la realidad con alta granularidad)
Latencia individual
Latencia media
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 14
Caso de Estudio Segunda iteración: Mejoras al modelo
ROS=Read Out System; HLT=High Level Trigger; TPU=Trigger Processing Unit; HLTSV=High Level Trigger Supervisor; DCM=Data Collection Manager; ToR=Top Of Rack Switch
Arquitectura pre-run 2 Arquitectura run 2
Durante 2014 Después de Octubre 2014
Actualizaciones
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 15
Caso de Estudio Segunda iteración: Mejoras al modelo
Ciclo de Construcción (azul)Marco Experimental: Red actualizada, 40 DCMs (1 Rack), 960 PUs,
100 ROS (x50 instancias de modelos)
1) Observación del sistema real (experimentación y medición)
Barrido de la frecuencia del HLTSV
• A 50Hz la latencia es mínima (~13ms). Red libre al filtrar cada evento
• Al aumentar la frecuencia, la latencia sube lentamente. PUs comparten los recursos de la red y créditos del DCM
• A >~3.2kHz la latencia aumenta exponencialmente. Se alcanza la capacidad máxima de la red
500 créditos700 créditos
Varianza
Utilización de red%15
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 16
Caso de Estudio Segunda iteración: Mejoras al modelo
2) Implementación del modelo
• Actualización de la red simple de implementar (flexibilidad)
Uso de memoria vs Tiempo de Simulación Tiempos de Ejecución
• Fase de desarrollo de Herramienta (soluciones genéricas):• Uso de SmartPointers• Simulación multi-nodo
• Extensión de Vectorial-DEVS • Mejora de Rendimiento (optimización
de las librerías)
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 17
Caso de Estudio Segunda iteración: Mejoras al modelo
3) Medición y validación de la simulación
• La simulación reproduce la curva de latencia medida en el sistema real• Muestra un buen grado de validación entre simulación y sistema real
Barrido de la frecuencia del HLTSV
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 18
Caso de Estudio Tercera iteración: Propuesta de mejora del sistema real
Ciclo de Hipotetización (Rojo):Propuesta de mejora del HLTSV
Asignación FIFO: Las PUs libres son encoladas y asignadas en
orden First-In-First-Out
Implementación actual en el sistema real
Asignaciones LeastBusyDCM:El HLTSV asigna el siguiente evento al DCM con
menor cantidad de PUs ocupadas
Nueva Propuesta
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 19
Caso de Estudio Tercera iteración: Propuesta de mejora del sistema real
Ciclo de Hipotetización (Rojo): propuesta de mejora del HLTSV
1) Implementación y pruebas de simulación
Comparación de algoritmos de asignación
• Frecuencias <24kHz: El nuevo algoritmomantiene la latencia constante y con valor mínimo (~16ms)
• Frecuencias >24kHz: la latencia crece debido a la saturación de la red
Predicción de simulación: el nuevo algoritmo podría reducir la latencia entre dos y cuatro veces
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 20
Caso de Estudio Tercera iteración: Propuesta de mejora del sistema real
2) Implementación en el sistema real y validación. Implementación en el sistema real:• Teniendo en cuenta requerimientos de
performance (100kHz). Multi-Threading
Mediciones en el sistema real:• El nuevo algoritmo reduce la
latencia
Se verifica la predicción realizada por simulación
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 21
Conclusiones
• Aplicación práctica en un experimento científico a gran escala:• Reproduce el comportamiento del sistema real en diferentes condiciones
• Nueva metodología de desarrollo para proyectos de M&S:• Metodología DEVS: brindó un marco formal de trabajo para el M&S • Ciclos iterativos: permitieron cubrir los requerimientos del proyecto
Granularidad incremental en tiempos cortos• Fases: permitieron mejorar el modelo y brindar soluciones
genéricas de simulación
• Herramienta flexible a cambios• Caso de éxito al predecir comportamiento del sistema real• Útil para desarrollar y poner a prueba mejoras en los algoritmos
de control
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 22
Trabajo Futuro• Nuevos escenarios de TDAQ
• Mayor detalle en los componentes para representar mejor el sistema real• Evaluar nuevas técnicas de control (créditos dinámicos, asignaciones para PUs con
diferentes características)• Evaluación de futuras arquitecturas para la red de datos (Run 3, prevista para ~2021)
• Análisis de grandes volúmenes de datos• Integración con base de datos para series temporales (TSDB, time series data bases)• Análisis de datos de simulación (Ciclos de Exploración de Propiedades del Sistema)
• Simulación Híbrida de redes • Modelos discretos (generación de tráfico) y de aproximaciones continuas (red de datos) y
en un mismo modelo• Ejecución de modelos a gran escala, con granularidad flexible y buena performance• Requiere nuevos desarrollos teóricos en M&S
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 23
Preguntas
Matias Bonaventura
Rodrigo Castro
Matias Bonaventura, Rodrigo Castro 44 JAIIO 2015, ASSE, Rosario, Argentina. Septiembre, 2015 24
• PowerDEVS (open source): http://sourceforge.net/projects/powerdevs/
• Mas información de CERN/ATLAS: http://home.web.cern.ch/
• DEVS:
Referencias
[1] B. Zeigler: Theory of Modeling and Simulation.
John Wiley & Sons, New York, 1976
[2] Wainer, Gabriel A., and Pieter J. Mosterman, eds. Discrete-
event modeling and simulation: theory and applications. CRC
Press, 2010.
Matias Bonaventura CERN - ATLAS/TDAQ Team, Geneva, Switzerland. March, 2014 25
Definition
ta
0 → e→ ta
Y
intext S
External transition Internal Transition
(Independent from the external system)
),,,,,,( extint taSYXMD
X
Sets Dynamical Functions
Proposed Solution: M&S
Matias Bonaventura CERN - ATLAS/TDAQ Team, Geneva, Switzerland. March, 2014 26
Proposed Solution: M&SDEVS Background
• DEVS allows to model a full rage of dynamic systems.• Different hybrid systems can interact within the same simulation
model • Ej: Controllers based on Petri Nets, or based on Control Theory
Matias Bonaventura CERN - ATLAS/TDAQ Team, Geneva, Switzerland. February, 2015 27
DCM Load ComparisonSimulation prediction
Random Assignment (current) LeastBusyDcm (new)
Max
DC
M L
oad
1. With random assignments the load in each DCM fluctuates. Sharing resources increases latency.
2. With the new algorithm the load in balanced in all DCMs. PUs are not overlapped in the same DCM, which keep latency to the minimum.
20kHz
Matias Bonaventura CERN - ATLAS/TDAQ Team, Geneva, Switzerland. February, 2015 28
HLTSV ScanReal System Results
• DCM Load is very similar to the predicted by simulation.• With the new algorithm the load for the complete system is balanced
Matias Bonaventura CERN - ATLAS/TDAQ Team, Geneva, Switzerland. February, 2015 29
TS Credit ScanTR 10 Results
• New algorithm improves EB Latency for all values of credits. Improves more than 2 times• The effect of using few credits is reduced. In that case, effect overlaping PUs is much worse
(see next slide)
Matias Bonaventura CERN - ATLAS/TDAQ Team, Geneva, Switzerland. February, 2015 30
Simulation – TR comparison Queue usage
Simulation – ToR Queues Zoom view (25kHz)(Bursts)