Impacto de Cloud Computing en los experimentos del LHC

EGI-InSPIRE

Impacto de Cloud Computing en los
experimentos del LHC

Fernando H. Barreiro Megino
(CERN IT - Experiment Support)

1
EGI-InSPIRE RI-261323 www.egi.eu

CERN y el LHC

2

CERN: El laboratorio de física mas
grande del mundo

~ 1 billón de CHF/año
20 estados miembros y
creciendo
2.424 miembros de personal
10.000+ usuarios en todo el
mundo

3

Entendiendo el Big Bang

Big Bang

13.7 Billion Years
Today
1028 cm


Visión global del LHC

5

Instalaciones de ATLAS


Hitos alcanzados en CERN

1954 Se funda el CERN bajo la tutela de la UNESCO
1957 Comienza la operación del primer acelerador
1983 Descubrimiento de las partículas W y Z
1989 El gigante LEP comienza a operar
1989 Se inventa la World Wide Web
2004 Se encuentra por primera vez antimateria
2008 El LHC se pone en marcha

7

4 Julio 2012

Más de1,000 estaciones de
TV retransmitieron el evento
y mas de 1 billón de personas
lo vieron

“This is just the
beginning. Our
understanding of the
Universe is about to
change.”
CERN’s Director-General

“It’s really an incredible
thing that it happened
in my lifetime.”
Peter Higgs

8

El modelo computacional del LHC
Worldwide LHC Computing Grid (WLCG)

9

Requerimientos computacionales de
la Fisica de Altas Energias (FAE)
• Los desafíos del análisis de datos es su volumen y la necesidad de
compartir los datos a través de la colaboración del LHC
• Debemos almacenar y analizar Petabytes de datos
• Colaboración internacional distribuida por todo el mundo
• La financiación es nacional
Jobs de simulación de ATLAS
Volumen de datos almacenados por ATLAS en el grid

Y estas gráficas muestran solamente uno de los 4 experimentos del LHC
Y estas gráficas muestran solamente uno de los 4 experimentos del LHC

10

Modelo MONARC (1998)
• Arquitectura jerárquica fundamento del Worldwide LHC Computing Grid

11

El WLCG en acción (2013)

• Desde el inicio de la toma de
datos, el WLCG ha funcionado
con éxito y ha permitido el
análisis de datos a miles de
físicos
• Sin embargo la mayoría de las
soluciones en uso son
específicas al dominio HEP,
desarrolladas y mantenidas
por la comunidad de FAE
• En 2013 la FAE no es un caso
de computación particular
• Tenemos que aprender de
la industria para mejorar la
sostenibilidad de nuestro
entorno

12

Modelo de integración básico
entre grid y cloud
The grid of clouds

13

Modelo simplificado para la
integración con clouds

14

Observaciones sobre nuestra
disposición
1. Aún no hemos definido una estrategia para el uso
de almacenamiento transitorio o final en la nube
• Necesidad de integrar el almacenamiento de datos en
la nube con la capa de gestión de datos del WLCG

1. Usamos principalmente la nube para computación y
los datos se transfieren a través de la WAN
• Jobs de simulación: Bajo I/O. Carga idónea para la
nube
• Jobs de análisis: Mayor I/O. Aun preferimos ejecutarlos
en el grid (cerca del elemento de almacenamiento)

15

Creación de nubes privadas en la FAE
Virtualización de nuestros centros de cálculo

16

Motivación

• Varios centros de cálculo y proyectos nacionales asociados
a actividades del CERN están adoptando soluciones de
código abierto para administrar sus recursos como una
infraestructura cloud
• Facilidad de uso
• Flexibilidad en la gestión de instalaciones
• Provisión dinámica de recursos a múltiples comunidades de
usuarios
Ejemplo: Openstack como solución adoptada en conjunto con la industria

Granjas online de ATLAS&CMS

04/02/13 17

CERN Agile Infrastructure

• Objetivo para 2015: manejar de manera eficiente y sostenible un centro de
cálculo completamente virtualizado
• Manejar los centros de datos de Ginebra y Budapest (en construcción)
como un único pool
• Gestionar infraestructura general y los recursos del Tier 0
• 100K-300K máquinas virtuales en 15K hypervisors

18

CERN Agile Infrastructure

04/02/13 19

CERN Agile Infrastructure:
Openstack

• El objetivo para la infraestructura virtualizada en CERN es
proporcionar el mismo rendimiento que la infraestructura
original

• Durante el despliegue de la nube Openstack en CERN, los
experimentos ATLAS y CMS recibieron recursos
significativos: 200 máquinas virtuales x (4cores, 8 GB RAM,
80 GB de disco)
• Los experimentos obtienen recursos adicionales
• La infraestructura obtiene carga útil para la comisión de
la infraestructura y la comparación con la infraestructura
original

20

CERN Agile Infrastructure:
Openstack
• ATLAS opera una cola estándar
• Jobs de HammerCloud: jobs de
prueba que miden métricas sobre
el rendimiento de la infraestructura
(p.ej. CPU y red)
• Trabajos reales de simulación:
proporcionan una estimación sobre
la fiabilidad del sistema
• Sólo durante enero ~ 15k días
de CPU de trabajos exitosos

Uso de los recursos por ATLAS: Jobs
Uso de los recursos por ATLAS: Jobs
• CMS está ejecutando pruebas de continuamente quemando CPU
continuamente quemando CPU

simulación y análisis
• Desarrollo de la gestión automática
del ciclo de vida de las máquinas
virtuales

21

HLT trigger farms
• Long Shutdown 1: Paro de la actividad del LHC entre
Febrero 2013 y Noviembre 2014 para mantenimiento
y upgrades

• ATLAS y CMS disponen de granjas con ~3000
máquinas junto a los detectores para la adquisición
de datos
• ATLAS: 15000 CPUs, 315 TB almacenamiento
• CMS: 13000 CPUs, 232 TB almacenamiento

• Qué hacer con estos recursos durante la parada
técnica?
• La flexibilidad de Cloud Computing permite reusarlos
temporalmente para trabajos de simulación
• Openstack se está instalando como infraestructura
superpuesta para gestionar los recursos y poder
cambiar rápidamente la granja entre distintos usos
• Las granjas se necesitarán una vez al mes para pruebas en
el SW de adquisición de datos!

22

Y muchas más opciones e
iniciativas

• OpenNebula (ej. Port d’Informació Científica)
• StratusLab (ej. Rutherford Appleton Laboratory)
• VMWare ESXi (ej. Lancaster University)
…

• El uso generalizado de cloud middleware podría
reducir dependencias sobre grid middleware
• Dirección pendiente por entender y desarrollar
• Es necesario estandarizar interfaces y funcionalidades

23

Uso de nubes públicas en la FAE
Expansión a proveedores externos

24

Motivación
¿Por qué no expandir a la nube durante picos de
demanda?

• ALICE, ATLAS, CMS y LHCb realizando pruebas en clouds públicas
• Clouds de investigación
• Proveedores comerciales

25

HelixNebula – La Nube Científica

Email:contact@helix-nebula.eu Twitter: HelixNebulaSC Website: http://www.helix-nebula.eu/
26

Plan estratégico de HelixNebula

• Actividad pionera en estudiar relaciones público-privadas
1. Realizar evaluaciones técnicas de proveedores comerciales
europeos
2. Estudiar aspectos sociológicos, legales, de seguridad y de coste
3. Incrementar la competencia entre proveedores y evitar lock-ins
4. Encontrar modelos de negocio y aplicaciones que puedan
sostener el mercado europeo en los próximos años

• Objetivo: Crear una nube federada y un mercado europeo
competitivo para servicios de cloud
• Infraestructura natural para la comunidad científica para el
almacenamiento, acceso y procesado de datos
• Habilitar aplicaciones a través de varios dominios científicos
• Aplicaciones de diseminación y –en caso que sea posible- acceso
abierto a los datos científicos

27

HelixNebula:
primera evaluación técnica
• CERN: ATLAS como buque insignia
• Objetivo: Demostrar que es posible expandir la
capacidad computacional de ATLAS a través de nubes
comerciales
• Una de las primeras pruebas a mediana escala para el
experimento:
• Pruebas en Atos, CloudSigma y T-Systems entre marzo y
septiembre 2012
• “Tarifa plana” con negociación ad-hoc de recursos y duración
de la prueba
• Aportamos más de 40k días de CPU de trabajos de
simulación al experimento
• Dimos consejos útiles a los proveedores sobre como
mejorar sus servicios
28

HelixNebula: conclusiones de la
primera evaluación técnica
• Cada proveedor ofrecía servicios similares, pero
con diferencias que dificultaban la portabilidad
• Diferentes conceptos de IaaS
• Máquinas virtuales persistentes: clonación completa de los discos
para crear una nueva instancia
• Máquinas virtuales efímeras: se pueden perder accidentalmente
• Diferentes formatos de imagen
• La conexión a un proveedor requería condiciones particulares
(VPN)
• APIs distintas (normalmente propietarias)
• Posibilidad de contextualización de usuario sólo fue directa en
un proveedor
• De lo contrario usábamos el modelo "disco de oro“

29

Arquitectura HelixNebula:
The Blue Box
http://www.helix-nebula.eu/index.php/uploads/file/81/33/HelixNebulaArchitecture.pdf.html

Objetivos
•Corto plazo: limitar el esfuerzo en
migrar aplicaciones entre
proveedores y evitar lock-ins
•Largo plazo: habilitar un ecosistema
multi-usario y multi-proveedor en el
que nuevos participantes puedan
conectarse y contratar/ofrecer
servicios

Consideraciones practicas:
•Implementar la caja azul es un
proyecto ambicioso. Por qué no
empezar por aplicaciones existentes
en el mercado?
•Enstratus y Slipstream fueron
identificados como candidatos
iniciales

30

HelixNebula:
Segunda evaluación técnica

• La segunda evaluación técnica está a punto de comenzar y usarán
Enstratus y Slipstream como capas intermedias
• Los tests serán similares a la primera ronda, pero formalizando poco a
poco las relaciones

1. Con las “cajas azules”: Comparar Enstratus y Slipstream
• Cuánto simplifican realmente nuestro trabajo?

1. Con los proveedores: Medir la calidad de servicio en base a unos
criterios acordados
• “Time to first instance”
• Escalabilidad y fallos de nodos
• Rendimiento y fiabilidad de las máquinas
• Asistencia técnica: tiempo de respuesta y satisfacción del nivel de soporte
• Coste

• En el caso de CERN el experimento CMS se unirá a las pruebas

31

Amazon: Pruebas de ATLAS/BNL
• Brookhaven National Laboratory (BNL) recibió una concesión de
$50.000 en Amazon
• BNL aprovechó esta oportunidad para
• Demostrar la escalabilidad de la arquitectura de ATLAS con recursos
en la nube: miles de nodos leyendo datos del sistema de
almacenamiento en BNL a través de la WAN
• Jugar con los distintos modelos de pago (On Demand, reserved
instances y spot instances) y determinar costes empíricamente

• EC2 spot instances
• Estrategia de Amazon de llenar recursos desocupados al mejor postor
• El usuario fija el precio máximo por hora que está dispuesto a pagar
• El Spot Price fluctúa según la oferta&demanda.
• Cualquier máquina puede ser parada si el Spot Price excede el
máximo fijado por el usuario

32

Amazon: Pruebas de ATLAS/BNL
• Tipo: m1.small
• 1 virtual core
• 1.7 GiB RAM
• 160 GB
• I/O $3.00/CPU*h
Performance:
Moderate

$0.007/CPU*h

33

Amazon: Pruebas de ATLAS/BNL.
Conclusiones

• Con el spot price se pueden obtener precios muy
interesantes, pero los recursos son volátiles
• 5000 jobs concurrentes a un precio de ~$1k/día
• Precio no considera los costes de tráfico de red
• Ninguna garantía de servicio

• Sin embargo, para cargas computacionales
grandes aún parece mas rentable disponer de
centros de cálculo propios - en particular si
queremos garantía de servicio (por ejemplo
usando instancias reservadas)

34

Conclusiones

35

Resumen

• En el mundo de la FAE, la computación grid y cloud están
vistas como tecnologías complementarias que van a
convivir en diferentes niveles de abstracción
• Centros de cálculo virtualizados: gestión flexible de recursos
• Uso de nubes externas a través de colaboraciones y la posible
contratación de recursos a proveedores comerciales

• Simulación y procesado de datos
• Tenemos un modelo para ejecutar nuestros jobs en nubes
externas – con poco esfuerzo podemos arrancar un cluster de
nodos acoplado al sistema de gestión de carga de los
experimentos
• Podemos mejorar la automatización y monitorización, pero las
necesidades actuales están cubiertas

36

Resumen: cuestiones pendientes
• Tenemos poca experiencia en el almacenamiento de datos en la
nube
• Debemos integrar la nube (p.ej. Block storage) con nuestra capa de
gestión de datos
• Si resolvemos este aspecto, podremos habilitar el uso de la nube
para trabajos de análisis con mayores requerimientos de I/O

• Cloud computing es una tecnología joven y se echa en falta la
adopción de estándares
• En las interfaces
• En los servicios ofrecidos por los proveedores y la federación de
nubes

• Encontrar modelos de negocio para la colaboración con
proveedores europeos

37

Gracias por su atencion

Preguntas?
902-CERN-IT
Fernando.Harald.Barreiro.Megino@cern.ch

38

Créditos

• Tim Bell3, Ian Bird3, Franco Brasolin2, Jose
Antonio Coarasa Perez4, Alessandro Di
Girolamo3, Michael Ernst2, John Hover2,
Bob Jones3, Alexei Klimentov2, Wolfgang
Lengert5, Ramon Medrano Llamas3,
Daniel van der Ster3

1
ATLAS 2BNL 3CERN IT 4CMS 5ESA

39

Impacto de Cloud Computing en los experimentos del LHC

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (16)

Ähnlich wie Impacto de Cloud Computing en los experimentos del LHC

Ähnlich wie Impacto de Cloud Computing en los experimentos del LHC (20)

Mehr von Fundación Ramón Areces

Mehr von Fundación Ramón Areces (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (12)

Impacto de Cloud Computing en los experimentos del LHC

Hinweis der Redaktion