1. El Horizonte de la
Investigación en el Siglo XXI
Dr. Hugo A Banda Gamboa
15 Junio 2011
2. Contenido
La Sociedad del Conocimiento y el Tsunami de
datos
El 4to. Paradigma
eScience y La Ciencia Computacional
Laboratory Information Management Systems
Herramientas computacionales
Proyectos de Microsoft Research
Conclusión
Referencias
Dr. Hugo Banda - Junio 2011 2
3. La Sociedad del Conocimiento
• El conocimiento está considerado como la principal
fuerza motriz del crecimiento económico y del
mejoramiento de la calidad de vida de las
sociedades actuales.
• A medida que la generación e intercambio de
conocimiento se van constituyendo en
preocupaciones clave, no resulta sorprendente que
la inversión en la creación de nuevas herramientas
de análisis y visualización de datos, generación de
información y gestión del conocimiento, sea
considerada de suma importancia en los países de
mayor avance científico-tecnológico.
Dr. Hugo Banda - Junio 2011 3
4. El Tsunami de Datos …
• Cuando el desarrollo de la teoría genera tantos
datos, los científicos encuentran a menudo que
nuevas ideas no pueden ser probadas por falta
de tecnología o herramientas.
• Investigadores en Genómica, Astronomía y
muchas otras áreas activas de la ciencia
enfrentan un reto fundamental: la recopilación
de datos es tan fácil y rápida que supera la
capacidad para validar, analizar, visualizar,
almacenar y administrar la información.
Dr. Hugo Banda - Junio 2011 4
5. El Tsunami de Datos
• Cada vez más, los adelantos científicos se
alimentan por funciones informáticas avanzadas
que ayudan a los investigadores a manipular y
explorar grandes conjuntos de datos.
• La velocidad a la que cualquier disciplina
científica avance dependerá de qué tan bien sus
investigadores colaboren entre sí y puedan
contar con el apoyo de tecnólogos, en áreas de
eScience tales como bases de datos,
administración de flujo de trabajo, visualización
y tecnologías de cloud computing.
Dr. Hugo Banda - Junio 2011 5
6. Gordon Bell: Microsoft Research
• En las investigaciones científicas, estamos en
una etapa de desarrollo que es similar a
cuando se inventó la imprenta. La impresión
tomó mil años en desarrollarse y evolucionar
hacia las formas que se tienen hoy. Usando
computadores para obtener comprensión de
datos creados y guardados en nuestros
almacenes de datos electrónicos
probablemente tomará décadas — o menos.
Dr. Hugo Banda - Junio 2011 6
7. El 4to Paradigma
• A pesar que diversos métodos de simulación
empíricos y analíticos han proporcionado
respuestas a muchas preguntas, está
surgiendo una nueva metodología científica
impulsada por problemas intensivos en
datos: el Cuarto Paradigma.
• El cuarto paradigma aborda este desafío y la
oportunidad que se presenta.
Dr. Hugo Banda - Junio 2011 7
8. Los 4 Paradigmas Científicos
1. Hace miles de años: la ciencia fue empírica (descripción de
fenómenos naturales)
2. Los últimos cien años: ramificación teórica (uso de modelos y
generalizaciones)
3. Las últimas décadas: ramificación computacional (simulación
de fenómenos complejos)
4. Hoy: exploración de datos (eScience) unificación de la teoría,
experimentación y simulación:
Datos capturados por instrumentos o generados por simulador
Procesado por software
Información/conocimiento almacenado en el equipo
Científicos analizan la base de datos / archivos utilizando la
administración de datos y la estadística
Dr. Hugo Banda - Junio 2011 8
9. eScience
• Es la ciencia intensiva en cálculo, que se lleva a
cabo en entornos de red altamente distribuidos,
o es la ciencia que utiliza enormes conjuntos de
datos que requieren computación en grilla.
• El término a veces incluye tecnologías que
permiten colaboración distribuida, a través de
acceso en grilla.
• El término fue creado en 1999 por John Taylor,
Director General de la Oficina de Ciencia y
Tecnología del Reino Unido.
Dr. Hugo Banda - Junio 2011 9
10. Características de eScience
• Debido a la complejidad del software y de los
requerimientos de infraestructura de
almacenamiento de datos, los proyectos de eScience
usualmente involucran a grandes equipos,
gestionados y desarrollados en centros de
investigación, grandes universidades y el gobierno.
• Actualmente existen varios programas enfocados en
eScience en el Reino Unido, Europa y Estados Unidos,
en donde el término cyberinfrastructure es
típicamente usado para definir proyectos de eScience.
Dr. Hugo Banda - Junio 2011 10
11. La Exploración de Datos
• Actualmente los astrónomos realmente no
miran el cosmos a través de telescopios.
• En su lugar, exploran el espacio a través de
instrumentos complejos y de gran escala, que
envían datos a centros de almacenamiento, y
sólo entonces buscan la información y la
visualizan en sus computadores.
Dr. Hugo Banda - Junio 2011 11
12. La Ciencia Computacional
• Las técnicas y tecnologías conocidas para la
denominada ciencia basada en datos son tan
diferentes de las que actualmente se
demandan, que vale la pena hacer una clara
distinción con lo que se ha dado en llamar la
ciencia computacional, que constituye el
cuarto paradigma para la exploración
científica.
Dr. Hugo Banda - Junio 2011 12
13. X-Info
• La evolución de X-Info y Comp-X para cada
disciplina X
• Cómo codificar y representar el conocimiento
Dr. Hugo Banda - Junio 2011 13
14. Los Problemas Genéricos
• Adquisición de datos • Construcción y
• Gestión de Petabytes ejecución de modelos
(1015 bytes) • Integración de datos y
• Esquemas comunes literatura
• Cómo organizar y • Documentación de
reorganizar experimentos
• Cómo compartir con • Conservación y
otros preservación a largo
• Herramientas para plazo
consulta y visualización
Dr. Hugo Banda - Junio 2011 14
15. Información con Semántica
Codificada
• Las metas de muchos científicos es codificar su
información de tal manera que la puedan
intercambiar con otros científicos.
• ¿Por qué es necesaria la codificación?
Porque para que la información almacenada en un
computador pueda ser comprensible, los programas
deben ser capaces de comprender la información.
• Esto implica que la información sea representada en
forma algorítmica. Para esto, es necesario desarrollar
una representación (semántica) estandarizada de lo
que significa un gen, una galaxia o una medición de
alguna variable física.
Dr. Hugo Banda - Junio 2011 15
16. Laboratory Information Management
Systems
• Este tipo de sistema de información proporciona
una cadena de procesamiento desde los
instrumentos o los simuladores que generan
datos, hasta la bodega de datos.
• La cadena de procesamiento se encarga de
adquirir los datos, calibrarlos, acondicionarlos,
reconfigurarlos, codificarlos y descargarlos en el
lugar de almacenamiento, en un formato tal que
al estar publicado en el Internet, pueda ser
accesible y comprensible para una amplia
variedad de investigadores o usuarios.
Dr. Hugo Banda - Junio 2011 16
17. Formatos para Grandes y Complejas
Bases de Datos
• La comunidad científica ha inventado un conjunto de
formatos para enormes y complejas colecciones de
datos:
HDF6 (Hierarchical Data Format)
http://www.hdfgroup.org/
NetCDF7 (Network Common Data Form
http://www.unidata.ucar.edu/software/netcdf/
• Estos formatos son utilizados para intercambio de datos
y portan el esquema adonde quiera que se los mueva.
• Sin embargo las diversas disciplinas científicas
requieren mejores herramientas que HDF y NetCDF para
lograr que los datos puedan autodefinirse.
Dr. Hugo Banda - Junio 2011 17
18. Acceso a Grandes y Complejas Bases
de Datos
• Otro problema clave es que a medida que las
colecciones de datos se hacen grandes, se
dificulta su transferencia. Un Petabyte de datos
ya no es posible mover con FTP.
• Para realizar el análisis de datos se manejan dos
opciones: mover los datos hacia quien requiere
analizarlos; o mover las consultas hacia donde
están los datos.
• En este caso resulta evidente que es necesario
desarrollar mejores herramientas para aplicar las
consultas a donde están las colecciones de datos.
Dr. Hugo Banda - Junio 2011 18
19. Visualización y Análisis
• Las herramientas de visualización y análisis
forman parte de un tercer problema clave.
• Algunas comunidades científicas actualmente
utilizan MATLAB, EXCEL y LabView.
• At present, we have hardly any data
visualization and analysis tools. Some research
communities use MATLAB, for example, but the
funding agencies in the U.S. and elsewhere need
to do a lot more to foster the building of tools to
make scientists more productive.
Dr. Hugo Banda - Junio 2011 19
20. Herramientas Computacionales
(HW/SW)
• La complejidad de las tareas analíticas y de
visualización, requieren de infraestructura
computacional paralela y distribuida. Para
estos fines, se han desarrollado algunos
proyectos:
Cluster Beowulf - http://www.beowulf.org/
Proyecto Condor -
http://www.cs.wisc.edu/condor/
Programa BOINC - http://boinc.berkeley.edu/
Dr. Hugo Banda - Junio 2011 20
21. Cluster Beowulf
• Un Beowulf es una clase de computador masivamente
paralelo de altas prestaciones principalmente construido a
base de un cluster de componentes hardware estándard.
• Un Beowulf ejecuta un sistema operativo de libre
distribución como Linux o FreeBSD, y se interconecta
mediante una red privada de gran velocidad.
• Generalmente se compone de un grupo de PCs o
estaciones de trabajo dedicados a ejecutar tareas que
precisan una alta capacidad de cálculo.
• Los nodos en el cluster de computadoras no se hallan en
los puestos de trabajo de los usuarios, sino que están
totalmente dedicados a las tareas asignadas al cluster.
• Generalmente, el cluster se conecta al mundo exterior por
un solo nodo.
Dr. Hugo Banda - Junio 2011 21
23. Proyecto Condor
• Condor es un sistema de gestión de carga de trabajos
que requieren computación intensiva.
• Condor provee de un mecanismo de colas de trabajo,
políticas de calendarización, esquemas de prioridad,
monitoreo y gestión de recursos.
• Los usuarios simplemente envían sus trabajos seriales
o paralelos y Condor los sitúa en la cola, decide
cuándo y dónde ejecutarlos, de acuerdo con las
políticas establecidas, monitoreo cuidadosamente su
progreso y finalmente informa al usuario que ha
concluido su procesamiento.
Dr. Hugo Banda - Junio 2011 23
24. Programa BOINC
• Programas de código abierto para computación
voluntaria y computación en grilla (grid).
• Usa el tiempo de inactividad de los
computadores (Windows, Mac, o Linux) para
desarrollar proyectos complejos:
Científicos: BOINC permite crear un proyecto de
computación voluntaria obteniendo la potencia de
procesamiento de miles de CPUs.
Universitarios: BOINC ayuda a crear un Campus
Virtual de Supercomputación
Empresariales: BOINC facilita la computación en
grilla con ordenadores personales
Dr. Hugo Banda - Junio 2011 24
25. Proyectos de Microsoft Research …
• Microsoft Biology Foundation v2.0: Library &
Tools
• MirageBlocks
• High Quality Automatic Translations
• World Wide Telescope
• F# Programming Language
• Web N-gram Services (Semantic Computing)
• Digital Humanities & eHeritage Tolls for
Academics
• Zentity 2.0 and Active Text
Dr. Hugo Banda - Junio 2011 25
26. Proyectos de Microsoft Research
• .NET Gadgeteer-A plataform for rapid prototyping
• eSience in the Cloud at fluxdata.org
• WikiBhaha-A multilingual content creation tool for
Wikipedia
• Rich Interactive Narratives
• Window HPC y Windows Azure
• Scientific Computing using Windows Azure
• Kinect Development Kit
• RiSE4Fun-Research Tools for Serious Developers
Fuente: http://research.microsoft.com/en-us/research/default.aspx
Dr. Hugo Banda - Junio 2011 26
27. Conclusión
Con la ciencia avanzando a ser computacional
y basada en grandes colecciones de datos, los
desafíos tecnológicos clave incluyen la
necesidad de mejor captura, análisis,
modelación y visualización de la información
científica. El objetivo es ayudar a los
científicos, investigadores, políticos y el
público en general en la toma de decisiones
bien informadas.
Dan Fay - Microsoft Research
Dr. Hugo Banda - Junio 2011 27
28. Referencias
• G. Bell, T. Hey, and A. Szalay, “Beyond the Data Deluge,”
Science, vol. 323, no. 5919, pp. 1297–1298, 2009.
• J. Wing, “Computational Thinking,” Comm. ACM, vol. 49,
no. 3, Mar. 2006.
• NSF Regional Scale Nodes,
http://rsn.apl.washington.edu.
• G. Bell, J. Gray, and A. Szalay, “Petascale Computational
Systems,” IEEE Computer, pp. 110–112, vol. 39, 2006.
• T Hey, S Tansley, and K Tolle (Eds). “The Fourth
Paradigm: Data-Intensive Scientific Discovery.” Microsoft
Research, Redmond, Washington, USA, 2009.
Dr. Hugo Banda - Junio 2011 28
29. GRACIAS
Dr. Hugo A. Banda Gamboa
Presidente
CORDICYT
hugo.banda@cordicyt.org
Quito, Marzo 2006 (C) Dr. Hugo A. Banda Gamboa 29/46