Caminando hacia la Web Semántica: Datos abiertos enlazados
1. Caminando hacia la Web
Semántica:
Datos abiertos enlazados
Jose Emilio Labra Gayo
Universidad of Oviedo, Spain
http://www.di.uniovi.es/~labra
2. Presentación
Director Escuela de Ingeniería Informática
Universidad de Oviedo, España
Fundador Equipo investigación WESO (WEb Semántica Oviedo)
Autor libro Web Semántica
Próxima aparición
Editorial NetBiblo, Colección Pcket Innova
http://www.netbiblo.com
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
3. La charla en 1’
¿Qué pasa?
La era de los datos
¿Porqué?
Razones para publicar datos
¿Cómo?
Datos abiertos enlazados
Web Semántica: Mitos y retos
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
5. Evolución de la Web
Crecimiento casi exponencial
Fuente: Netcraft webserver survey
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
6. Datos multimedia
Dispositivos + baratos: Cámaras, móviles, …
Facebook: 15.000 mill. fotos (2009)
Youtube: 144 mill. de vídeos (2009)
Flickr: 5.000 mill. fotos (2010)
y más…..
http://www.facebook.com/note.php?note_id=76191543919 Fuente: http://www.coverpop.com/pop/flickr_interesting
http://beerpla.net/2008/08/14/how-to-find-out-the-number-of-videos-on-youtube/
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
7. Internet de las cosas
Cada vez más dispositivos estarán
conectados a Internet
Frigoríficos, coches, …
Frigorífico con Internet
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
8. Y lo que falta…
Aumento de sensores y generadores de
datos
Ejemplo: Acelerador de partículas LHC
producirá 15 petabytes de datos/año
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra http://www.youtube.com/watch?v=sfEbMV295Kk&feature=player_embedded
9. Aún así…
Muchos datos no se están publicando
Reticencias para publicar datos
Razones para liberar datos
Incluso exigir datos abiertos
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
10. Razones para los gobiernos
Datos públicos fomentan la
investigación
Acelerar tasa de descubrimiento
Bien común de la ciudadanía
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
11. Razones para los gobiernos
Facilitan contribuciones externas
Sabiduría de las masas
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
12. Razones para los gobiernos
Mejorar calidad
Reducción de costes
Interoperabilidad
Ej. ¿Lista de municipios?
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
13. Razones para los gobiernos
Trasparencia y liderazgo
Fomentar participación
Generar confianza
Evitar datos alternativos no-oficiales
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
15. Como ciudadanos…
…también podemos demandar datos
abiertos…
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
16. …demandar datos abiertos
Cuando pertenecen a la humanidad
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
17. …demandar datos abiertos
Hechos de conocimiento común
Ejemplo: conocimiento científico
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
18. …demandar datos abiertos
Si han sido creados con dinero público
Son nuestros
Los hemos pagado con nuestros impuestos
Retorno de inversión
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
20. No basta con publicar datos…
El mayor reto = Integración
En general, el problema no es informatizar algo
El problema es integrar los sistemas
Interoperabilidad
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
21. Accesibilidad Universal
Niveles de accesibilidad
Discapacidad física
Motivos técnicos: otros entornos
Intelectual
Analfabetismo
Barreras de conocimiento
Accesibilidad cultural
Otros idiomas…
Accesibilidad para las máquinas
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
22. Modelo de Estrellas*
★ Publicar los datos
(en cualquier formato)
★★ Utilizar formato estructurado
(Excel en lugar de imágenes escaneadas)
★★★ Usar formatos no propietarios
(CSV en lugar de Excel)
★★★★ Usar URIs para identificar datos
(otros sistemas puedan enlazar nuestros datos)
★★★★★ Enlazar con otros datos externos
(proporcionar contexto)
* Enunciado por Tim Berners-Lee en Gov 2.0 Expo 2010
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra http://www.youtube.com/watch?v=ga1aSJXCFe0
23. ★ Formatos no estructurados
Formatos “caja negra”: Imágenes, vídeos,
música, etc.
Formatos binarios: PDF, PS, etc.
Requieren técnicas de tratamiento de la
señal, reconocimiento de patrones, etc.
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
24. ★ Ejemplo:
Servicio Público de Empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
25. ★★
Formatos estructurados
Los datos tienen una estructura
Ejemplo: Hojas de cálculo
Problema con formatos propietarios
Requieren herramientas que no son públicas
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
26. ★★ Ejemplo:
Servicio Público de empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/9
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
27. ★★★
Formatos no propietarios
Utilizar formatos abiertos estructurados
Ejemplos: CSV, HTML
Problema: Contenido depende del contexto
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
28. ★★★ CSV
“Comma separated values” valores
delimitados por comas
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
29. ★★★ HTML
HTML está pensado para representar
información que se visualiza en el
navegador
El procesamiento puede requerir “screen
scrapping”
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
30. ★★★★
URIs para identificar datos
Utilizar una URI para identificar un dato
Diferentes representaciones para cada tipo
de dato
Negociación de contenido
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
31. ★ ★ ★ ★ XML
XML permite representar
información estructurada
Los documentos pueden
validarse (XML Schema)
Significado de etiquetas
depende de la aplicación
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
32. ★★★★
Negociación de contenido
El protocolo de comunicación permite que el
navegador informe al servidor del tipo de
contenido que prefiere
El servidor devuelve una representación diferente
según las preferencias del cliente
cliente servidor
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
33. ★★★★
¿2 representaciones para lo
mismo?
Ejemplo: Códigos de barras
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
34. ★★★★★
Enlazar con otros datos
Asociar otros conjuntos de datos
Reutilización de datos
Inferencia de conocimiento
La mejor manera de explotar tus
datos se le ocurrirá a otro
Jo Walsh, Rufus Pollock, http://www.okfn.org/files/talks/xtech_2007/
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
35. ★★★★★
Linking Open Data (2007)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
36. ★★★★★
Linking Open Data (2008)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
37. ★★★★★
Linking Open Data (2009)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
38. ★★★★★
Linking Open Data (2010)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
39. ★★★★★
Linking Open Data (2011)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
40. La Web Semántica
Web semántica Web de Datos
Visión donde los datos se publican y se
enlazan con otros datos
Objetivos:
Reutilizar
Automatizar
Integrar
Tim Berners Lee, inventor de la WWW
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
41. Hacia la web semántica
Trust
Proof
Unifying Logic
Ontologies Rules
Query: OWL RIF
SPARQL
RDF Schema
RDF
XML
Unicode URI
Semantic web layer cake, by Tim Berners Lee
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
42. RDF
Resource Description Framework (1998)
Descripción de recursos
Recurso = se identifica con URI
Se basa en tripletas
Sujeto Predicado Objeto
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
43. Tripletas RDF
http://uniovi.es/juan
http://purl.org/dc/elements/1.1/creator
http://uniovi.es/biology
Objeto
Predicado Valor de una propiedad
Identificado por URI Puede ser:
Sujeto URI
Puede ser: Literal
URI Nodo anónimo
Nodo anónimo (bNode)
Notación Turtle
@prefix dc: <http://purl.org/dc/elements/1.1/ >.
@prefix uni: <http://uniovi.es/> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
uni:biologia dc:creator uni:juan .
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
48. Formatos RDF
Existen varios formatos:
N3
RDF/XML
N-Triples
Turtle
etc.
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
49. SPARQL
Simple Protocol and RDF Query Language
Lenguaje de consultas para la web semántica
Encaje de grafos
Extrae información de modelos RDF
Un protocolo
Define un mecanismo para invocar un servicio
También define un vocabulario para resultados
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
50. SPARQL
Ejemplo
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix uni: <http://uniovi.es/> .
@prefix dc: <http://purl.org/dc/elements/1.1/> .
select ?n where
{ ?p rdf:type uni:Profesor.
?x dc:creator ?p .
}
“Nombres de recursos cuyo autor sea un profesor”
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
56. Ontologías
RDF Schema permite hacer inferencias sencillas
Limitaciones de expresividad
OWL (Web Ontology Language)
Añade más expresividad
Formalizar dominios concretos: ontologías
Expresividad vs Complejidad
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
57. Mitos de la Web Semántica
Navegador inteligente
Una nueva Web
El cerebro global
La gran verdad: Una única ontología
Una etiqueta para cada cosa
Nadie querrá compartir datos
Demasiada apertura
Moda pasajera
No hay Killer application
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
58. El navegador inteligente
Mito:
El objetivo es conseguir sistemas que
naveguen por internet de forma inteligente
Realidad:
Objetivo = desarrollar tecnologías que faciliten
el procesamiento automático de la
información de la Web y su integración
No es Inteligencia Artificial pero sí se utilizan
técnicas de esa disciplina
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
59. Una nueva Web
Mito:
La Web Semántica ( Web 3.0) es una nueva
versión de la web que obligará a cambiar todo
lo que ya hay
Realidad:
Se propone transición gradual. Las tecnologías
ofrecerán valor añadido.
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
60. El cerebro global
Mito:
El proyecto de la Web semántica generará un
cerebro global
Realidad:
La web semántica facilitará un mejor uso de los
datos de la web.
Sí es un camino hacia la inteligencia colectiva
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
61. La gran verdad
Mito:
Se propone la creación de una única
ontología con todo el conocimiento de la
humanidad
Realidad:
Múltiples ontologías para diferentes dominios
Facilitar la integración
Mejorar la descripción de dominios
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
62. Una etiqueta para cada cosa
Mito:
El objetivo es asignar una etiqueta similar a
RFID para cada cosa
Realidad
No es factible que cada cosa conlleve sus
propios metadatos
Pueden realizarse descripciones de recursos
externas
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
63. Nadie querrá compartir datos
Mito:
Los proveedores de información no tendrán
motivación para adoptar tecnologías nuevas
Realidad:
Lo harán cuando encuentren un retorno de
inversión adecuado
Posicionamiento semántico
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
64. Demasiada apertura
Mito:
Si se sacan los datos de las bases de datos, se
pierden
Realidad:
Tecnologías para limitar acceso y controlar
privacidad
Declarar de dónde provienen los datos
Establecer propiedad legal de los datos
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
65. Moda pasajera
Mito:
Mito1: La Web semántica es algo nuevo
Mito 2: La Web semántica es algo viejo
Realidad:
Planteada ya en 1994, visión a largo plazo
Exceso de entusiasmo vs escepticismo
Casos de éxito: RSS, microformatos, XBRL,…
"A little semantics goes a long way"
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
66. No hay killer application
Mito:
No se ha desarrollado una killer application
Realidad:
¿Es necesaria?
¿Podría ser el proyecto Linked Open Data?
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
67. Retos de la Web Semántica
Escalabilidad
¿Dónde están los agentes?
Privacidad y seguridad
Confianza
Manejar ambigüedad e imprecisión
¿Servicios web semánticos?
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
69. Grupo WESO
Creado en 2004
Depto. Informática - Universidad de Oviedo
8 investigadores
Multidisciplinar
http://www.weso.es
Facultad de Ciencias, Oviedo
71. Un caso práctico
Proyecto LeyChile, 2008
Biblioteca del Congreso nacional de Chile
Objetivo: Añadir Linked Open Data
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
72. Contexto BCN
300.000 normas y relaciones
Modificaciones, revisiones, etc.
Primera fase: sólo metadatos principales de
normas
Título, fechas, tipos, relaciones
Se excluye cuerpo de normas
Enlace con otros vocabularios
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
73. Problema: Modelado del grafo
Una norma puede ser modificada por otra
Decreto 296 Decreto 12066
Publicado en 1995-02-17 Publicado en 2005-05-15
Art..1. abc. Art. 1. Modifca decreto 296 de la siguiente forma:
Art. 2. def. substituye las palabras “a” por “xyz” en Art.1
Artí.3. ghi.
Entonces, el decreto 296 debe ser:
Decree 296
Art. 1. xyzbc.
Art. 2. def.
Art. 3. ghi.
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
74. Modelado de Grafo
Decreto 296 http://datos.bcn.cl/recurso/cl/DTO/ministerio-del-interior/1995-02-17/296/
http://datos.bcn.cl/recurso/cl/DTO/ministerio-del-interior/1995-02-17/296/es@1995-02-17
Original
Última versión http://datos.bcn.cl/recurso/cl/DTO/ministerio-del-interior/1995-02-17/296/es@2005-05-10
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
75. Terminal SPARQL
Enlace con otros países (tratados
internacionales…), DBPedia, Geonames…
Reutilización de vocabularios / Ontologías
SKOS, DC, FOAF, DBPedia, ORG
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
76. Terminal SPARQL
Ejemplo de consulta
Todas las normas emitidas por una municipalidad entre 1995 y 2000
que se modificaron después del 2005
PREFIX dc: <http://purl.org/dc/elements/1.1/>
PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#>
SELECT ?normTitle ?creatorName ?pubDate ?pubDateOther
WHERE {
?norm n:createdBy ?creator .
?creator n:hasName ?creatorName .
?norm dc:title ?normTitle .
?norm n:publishDate ?pubDate .
?norm n:isModifiedBy ?otherNorm .
?otherNorm n:publishDate ?pubDateOther .
FILTER (regex(?creatorName,"MUNICIPALIDAD","i"))
FILTER (?pubDate > "1995" &&
?pubDate < "2000" &&
?pubDateOther > "2005")
}
ORDER BY (?pubDate)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
80. Otros Proyectos
10ders Information Services.
Licitaciones públicas de la Unión Europea
ROCAS: Razonamiento semántico en la nube
ORIGIN: Gestión conocimiento en organizaciones:
RRHH, Calidad, etc.
ORBITA: Visualización de Linked Data
RETINAS: Seguridad en tiempo real
BOPA: Buscador semántico Boletín Oficial P. de Asturias
Multilingual Web. Red temática europea + W3c
81. Líneas de investigación
Aplicaciones de Linked Data
eGovernment, Buscadores, Confianza
Escalabilidad y Temporalidad
Razonamiento distribuido
Algoritmos de recomendación
Realimentación de ontologías e identificación
Visualización y consumo de LD
Multilingüismo
82. Fin de la presentación
Más información:
http://www.di.uniovi.es/~labra