Experiencias de nubes científicas: El modelo computacional del LHC
Worldwide LHC Computing Grid (WLCG)
Fernando H. Barreiro Megino (CERN IT - Experiment Support)
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Impacto de Cloud Computing en los experimentos del LHC
1. EGI-InSPIRE
Impacto de Cloud Computing en los
experimentos del LHC
Fernando H. Barreiro Megino
(CERN IT - Experiment Support)
1
EGI-InSPIRE RI-261323 www.egi.eu
2. CERN y el LHC
2
EGI-InSPIRE RI-261323 www.egi.eu
3. CERN: El laboratorio de física mas
grande del mundo
~ 1 billón de CHF/año
20 estados miembros y
creciendo
2.424 miembros de personal
10.000+ usuarios en todo el
mundo
3
EGI-InSPIRE RI-261323 www.egi.eu
4. Entendiendo el Big Bang
Big Bang
13.7 Billion Years
Today
1028 cm
EGI-InSPIRE RI-261323 www.egi.eu
7. Hitos alcanzados en CERN
1954 Se funda el CERN bajo la tutela de la UNESCO
1957 Comienza la operación del primer acelerador
1983 Descubrimiento de las partículas W y Z
1989 El gigante LEP comienza a operar
1989 Se inventa la World Wide Web
2004 Se encuentra por primera vez antimateria
2008 El LHC se pone en marcha
7
EGI-InSPIRE RI-261323 www.egi.eu
8. 4 Julio 2012
Más de1,000 estaciones de
TV retransmitieron el evento
y mas de 1 billón de personas
lo vieron
“This is just the
beginning. Our
understanding of the
Universe is about to
change.”
CERN’s Director-General
“It’s really an incredible
thing that it happened
in my lifetime.”
Peter Higgs
8
EGI-InSPIRE RI-261323 www.egi.eu
9. El modelo computacional del LHC
Worldwide LHC Computing Grid (WLCG)
9
EGI-InSPIRE RI-261323 www.egi.eu
10. Requerimientos computacionales de
la Fisica de Altas Energias (FAE)
• Los desafíos del análisis de datos es su volumen y la necesidad de
compartir los datos a través de la colaboración del LHC
• Debemos almacenar y analizar Petabytes de datos
• Colaboración internacional distribuida por todo el mundo
• La financiación es nacional
Jobs de simulación de ATLAS
Volumen de datos almacenados por ATLAS en el grid
Y estas gráficas muestran solamente uno de los 4 experimentos del LHC
Y estas gráficas muestran solamente uno de los 4 experimentos del LHC
10
EGI-InSPIRE RI-261323 www.egi.eu
12. El WLCG en acción (2013)
• Desde el inicio de la toma de
datos, el WLCG ha funcionado
con éxito y ha permitido el
análisis de datos a miles de
físicos
• Sin embargo la mayoría de las
soluciones en uso son
específicas al dominio HEP,
desarrolladas y mantenidas
por la comunidad de FAE
• En 2013 la FAE no es un caso
de computación particular
• Tenemos que aprender de
la industria para mejorar la
sostenibilidad de nuestro
entorno
12
EGI-InSPIRE RI-261323 www.egi.eu
13. Modelo de integración básico
entre grid y cloud
The grid of clouds
13
EGI-InSPIRE RI-261323 www.egi.eu
15. Observaciones sobre nuestra
disposición
1. Aún no hemos definido una estrategia para el uso
de almacenamiento transitorio o final en la nube
• Necesidad de integrar el almacenamiento de datos en
la nube con la capa de gestión de datos del WLCG
1. Usamos principalmente la nube para computación y
los datos se transfieren a través de la WAN
• Jobs de simulación: Bajo I/O. Carga idónea para la
nube
• Jobs de análisis: Mayor I/O. Aun preferimos ejecutarlos
en el grid (cerca del elemento de almacenamiento)
15
EGI-InSPIRE RI-261323 www.egi.eu
16. Creación de nubes privadas en la FAE
Virtualización de nuestros centros de cálculo
16
EGI-InSPIRE RI-261323 www.egi.eu
17. Motivación
• Varios centros de cálculo y proyectos nacionales asociados
a actividades del CERN están adoptando soluciones de
código abierto para administrar sus recursos como una
infraestructura cloud
• Facilidad de uso
• Flexibilidad en la gestión de instalaciones
• Provisión dinámica de recursos a múltiples comunidades de
usuarios
Ejemplo: Openstack como solución adoptada en conjunto con la industria
Granjas online de ATLAS&CMS
04/02/13 17
EGI-InSPIRE RI-261323 www.egi.eu
18. CERN Agile Infrastructure
• Objetivo para 2015: manejar de manera eficiente y sostenible un centro de
cálculo completamente virtualizado
• Manejar los centros de datos de Ginebra y Budapest (en construcción)
como un único pool
• Gestionar infraestructura general y los recursos del Tier 0
• 100K-300K máquinas virtuales en 15K hypervisors
18
EGI-InSPIRE RI-261323 www.egi.eu
20. CERN Agile Infrastructure:
Openstack
• El objetivo para la infraestructura virtualizada en CERN es
proporcionar el mismo rendimiento que la infraestructura
original
• Durante el despliegue de la nube Openstack en CERN, los
experimentos ATLAS y CMS recibieron recursos
significativos: 200 máquinas virtuales x (4cores, 8 GB RAM,
80 GB de disco)
• Los experimentos obtienen recursos adicionales
• La infraestructura obtiene carga útil para la comisión de
la infraestructura y la comparación con la infraestructura
original
20
EGI-InSPIRE RI-261323 www.egi.eu
21. CERN Agile Infrastructure:
Openstack
• ATLAS opera una cola estándar
• Jobs de HammerCloud: jobs de
prueba que miden métricas sobre
el rendimiento de la infraestructura
(p.ej. CPU y red)
• Trabajos reales de simulación:
proporcionan una estimación sobre
la fiabilidad del sistema
• Sólo durante enero ~ 15k días
de CPU de trabajos exitosos
Uso de los recursos por ATLAS: Jobs
Uso de los recursos por ATLAS: Jobs
• CMS está ejecutando pruebas de continuamente quemando CPU
continuamente quemando CPU
simulación y análisis
• Desarrollo de la gestión automática
del ciclo de vida de las máquinas
virtuales
21
EGI-InSPIRE RI-261323 www.egi.eu
22. HLT trigger farms
• Long Shutdown 1: Paro de la actividad del LHC entre
Febrero 2013 y Noviembre 2014 para mantenimiento
y upgrades
• ATLAS y CMS disponen de granjas con ~3000
máquinas junto a los detectores para la adquisición
de datos
• ATLAS: 15000 CPUs, 315 TB almacenamiento
• CMS: 13000 CPUs, 232 TB almacenamiento
• Qué hacer con estos recursos durante la parada
técnica?
• La flexibilidad de Cloud Computing permite reusarlos
temporalmente para trabajos de simulación
• Openstack se está instalando como infraestructura
superpuesta para gestionar los recursos y poder
cambiar rápidamente la granja entre distintos usos
• Las granjas se necesitarán una vez al mes para pruebas en
el SW de adquisición de datos!
22
EGI-InSPIRE RI-261323 www.egi.eu
23. Y muchas más opciones e
iniciativas
• OpenNebula (ej. Port d’Informació Científica)
• StratusLab (ej. Rutherford Appleton Laboratory)
• VMWare ESXi (ej. Lancaster University)
…
• El uso generalizado de cloud middleware podría
reducir dependencias sobre grid middleware
• Dirección pendiente por entender y desarrollar
• Es necesario estandarizar interfaces y funcionalidades
23
EGI-InSPIRE RI-261323 www.egi.eu
24. Uso de nubes públicas en la FAE
Expansión a proveedores externos
24
EGI-InSPIRE RI-261323 www.egi.eu
25. Motivación
¿Por qué no expandir a la nube durante picos de
demanda?
• ALICE, ATLAS, CMS y LHCb realizando pruebas en clouds públicas
• Clouds de investigación
• Proveedores comerciales
25
EGI-InSPIRE RI-261323 www.egi.eu
27. Plan estratégico de HelixNebula
• Actividad pionera en estudiar relaciones público-privadas
1. Realizar evaluaciones técnicas de proveedores comerciales
europeos
2. Estudiar aspectos sociológicos, legales, de seguridad y de coste
3. Incrementar la competencia entre proveedores y evitar lock-ins
4. Encontrar modelos de negocio y aplicaciones que puedan
sostener el mercado europeo en los próximos años
• Objetivo: Crear una nube federada y un mercado europeo
competitivo para servicios de cloud
• Infraestructura natural para la comunidad científica para el
almacenamiento, acceso y procesado de datos
• Habilitar aplicaciones a través de varios dominios científicos
• Aplicaciones de diseminación y –en caso que sea posible- acceso
abierto a los datos científicos
27
EGI-InSPIRE RI-261323 www.egi.eu
28. HelixNebula:
primera evaluación técnica
• CERN: ATLAS como buque insignia
• Objetivo: Demostrar que es posible expandir la
capacidad computacional de ATLAS a través de nubes
comerciales
• Una de las primeras pruebas a mediana escala para el
experimento:
• Pruebas en Atos, CloudSigma y T-Systems entre marzo y
septiembre 2012
• “Tarifa plana” con negociación ad-hoc de recursos y duración
de la prueba
• Aportamos más de 40k días de CPU de trabajos de
simulación al experimento
• Dimos consejos útiles a los proveedores sobre como
mejorar sus servicios
28
EGI-InSPIRE RI-261323 www.egi.eu
29. HelixNebula: conclusiones de la
primera evaluación técnica
• Cada proveedor ofrecía servicios similares, pero
con diferencias que dificultaban la portabilidad
• Diferentes conceptos de IaaS
• Máquinas virtuales persistentes: clonación completa de los discos
para crear una nueva instancia
• Máquinas virtuales efímeras: se pueden perder accidentalmente
• Diferentes formatos de imagen
• La conexión a un proveedor requería condiciones particulares
(VPN)
• APIs distintas (normalmente propietarias)
• Posibilidad de contextualización de usuario sólo fue directa en
un proveedor
• De lo contrario usábamos el modelo "disco de oro“
29
EGI-InSPIRE RI-261323 www.egi.eu
30. Arquitectura HelixNebula:
The Blue Box
http://www.helix-nebula.eu/index.php/uploads/file/81/33/HelixNebulaArchitecture.pdf.html
Objetivos
•Corto plazo: limitar el esfuerzo en
migrar aplicaciones entre
proveedores y evitar lock-ins
•Largo plazo: habilitar un ecosistema
multi-usario y multi-proveedor en el
que nuevos participantes puedan
conectarse y contratar/ofrecer
servicios
Consideraciones practicas:
•Implementar la caja azul es un
proyecto ambicioso. Por qué no
empezar por aplicaciones existentes
en el mercado?
•Enstratus y Slipstream fueron
identificados como candidatos
iniciales
30
EGI-InSPIRE RI-261323 www.egi.eu
31. HelixNebula:
Segunda evaluación técnica
• La segunda evaluación técnica está a punto de comenzar y usarán
Enstratus y Slipstream como capas intermedias
• Los tests serán similares a la primera ronda, pero formalizando poco a
poco las relaciones
1. Con las “cajas azules”: Comparar Enstratus y Slipstream
• Cuánto simplifican realmente nuestro trabajo?
1. Con los proveedores: Medir la calidad de servicio en base a unos
criterios acordados
• “Time to first instance”
• Escalabilidad y fallos de nodos
• Rendimiento y fiabilidad de las máquinas
• Asistencia técnica: tiempo de respuesta y satisfacción del nivel de soporte
• Coste
• En el caso de CERN el experimento CMS se unirá a las pruebas
31
EGI-InSPIRE RI-261323 www.egi.eu
32. Amazon: Pruebas de ATLAS/BNL
• Brookhaven National Laboratory (BNL) recibió una concesión de
$50.000 en Amazon
• BNL aprovechó esta oportunidad para
• Demostrar la escalabilidad de la arquitectura de ATLAS con recursos
en la nube: miles de nodos leyendo datos del sistema de
almacenamiento en BNL a través de la WAN
• Jugar con los distintos modelos de pago (On Demand, reserved
instances y spot instances) y determinar costes empíricamente
• EC2 spot instances
• Estrategia de Amazon de llenar recursos desocupados al mejor postor
• El usuario fija el precio máximo por hora que está dispuesto a pagar
• El Spot Price fluctúa según la oferta&demanda.
• Cualquier máquina puede ser parada si el Spot Price excede el
máximo fijado por el usuario
32
EGI-InSPIRE RI-261323 www.egi.eu
34. Amazon: Pruebas de ATLAS/BNL.
Conclusiones
• Con el spot price se pueden obtener precios muy
interesantes, pero los recursos son volátiles
• 5000 jobs concurrentes a un precio de ~$1k/día
• Precio no considera los costes de tráfico de red
• Ninguna garantía de servicio
• Sin embargo, para cargas computacionales
grandes aún parece mas rentable disponer de
centros de cálculo propios - en particular si
queremos garantía de servicio (por ejemplo
usando instancias reservadas)
34
EGI-InSPIRE RI-261323 www.egi.eu
36. Resumen
• En el mundo de la FAE, la computación grid y cloud están
vistas como tecnologías complementarias que van a
convivir en diferentes niveles de abstracción
• Centros de cálculo virtualizados: gestión flexible de recursos
• Uso de nubes externas a través de colaboraciones y la posible
contratación de recursos a proveedores comerciales
• Simulación y procesado de datos
• Tenemos un modelo para ejecutar nuestros jobs en nubes
externas – con poco esfuerzo podemos arrancar un cluster de
nodos acoplado al sistema de gestión de carga de los
experimentos
• Podemos mejorar la automatización y monitorización, pero las
necesidades actuales están cubiertas
36
EGI-InSPIRE RI-261323 www.egi.eu
37. Resumen: cuestiones pendientes
• Tenemos poca experiencia en el almacenamiento de datos en la
nube
• Debemos integrar la nube (p.ej. Block storage) con nuestra capa de
gestión de datos
• Si resolvemos este aspecto, podremos habilitar el uso de la nube
para trabajos de análisis con mayores requerimientos de I/O
• Cloud computing es una tecnología joven y se echa en falta la
adopción de estándares
• En las interfaces
• En los servicios ofrecidos por los proveedores y la federación de
nubes
• Encontrar modelos de negocio para la colaboración con
proveedores europeos
37
EGI-InSPIRE RI-261323 www.egi.eu
38. Gracias por su atencion
Preguntas?
902-CERN-IT
Fernando.Harald.Barreiro.Megino@cern.ch
38
EGI-InSPIRE RI-261323 www.egi.eu
39. Créditos
• Tim Bell3, Ian Bird3, Franco Brasolin2, Jose
Antonio Coarasa Perez4, Alessandro Di
Girolamo3, Michael Ernst2, John Hover2,
Bob Jones3, Alexei Klimentov2, Wolfgang
Lengert5, Ramon Medrano Llamas3,
Daniel van der Ster3
1
ATLAS 2BNL 3CERN IT 4CMS 5ESA
39
EGI-InSPIRE RI-261323 www.egi.eu
Hinweis der Redaktion
The accelerator complex at CERN is a succession of machines with increasingly higher energies. Each machine injects the beam into the next one, which takes over to bring the beam to an even higher energy, and so on. In the LHC—the last element of this chain—each particle beam is accelerated up to the record energy of 7 TeV. In addition, most of the other accelerators in the chain have their own experimental halls, where the beams are used for experiments at lower energies.
2012 ended without the world destroyed, but with a new heavy boson discovered that matches the Higgs boson.