Este documento describe cómo Linked Data puede mejorar la búsqueda y descubrimiento de contenidos en repositorios OpenCourseWare (OCW). Actualmente, los buscadores de OCW tratan los datos como silos aislados sin conexiones semánticas. Linked Data vincula los datos usando URIs y vocabularios comunes, lo que permite realizar búsquedas más precisas basadas en relaciones semánticas. El documento propone publicar los datos OCW de OCW Universia como Linked Data para mejorar la visibilidad, acceso y reutilización de los recursos
1. Qué aporta Linked Data en repositorios
OpenCourseWare (OCW)
Edmundo Tovar (UPM etovar@fi.upm.es ) - Nelson Piedra (UTPL, nopiedra@utpl.edu.ec | @nopiedra)
Madrid, 20 de Enero 2012
GRUPO UPM GICAC
#linkeddata #ocw #oer #SemWeb
#SemanticWeb #OpenCourseWare
#LOCWD #LOD
this work is licensed under a Creative Commons Attribution 3.0 License http://creativecommons.org/licenses/by/3.0/ec/
2. I Por qué buscar recursos
educativos abiertos
Ciclo de vida de OER
Repositorios OER/OCW
3. OCW
OpenCourse
Ware
Contenidos Educativos con Licencias abiertas
Libertad de uso, re-uso, re-mezcla, adaptación
y de compartir legalmente
4. Profesores, estudiantes y autodidactas
requieren facilidades para encontrar y
adaptar contenido educativo en
cualquier lugar del mundo de manera
libre y abierta.
5. Ciclo de OERs
Necesidad
Académica profesores
estudiantes
autodidactas Crear nuevos
recursos
nuevo
Buscar
recursos Publicar y
usar Re-usar
abiertos y Compartir
libres
componer
internet Componer:
OpenCourseWare
Public domain
adaptar,
Resources from Social Web
remezclar
OpenEducationaResources
Creative commons
nelson piedra 2011
Publicar recursos educativos con licencias abiertas
Compartir y colaborar socialmente
Aseguramiento de calidad, accesibilidad, interoperabilidad
6. ¿ es suficiente con
licenciar abiertamente
los recursos educativos?
no!
20. 1.126 universidaes asociadas, 23
países de Iberoamérica. 14 millones
de profesores y estudiantes.
15.820 cursos OCW
41 proveedores de cursos
5 lenguajes
Acceso a contenidos:
Por Áreas
Por Autores
Por Palabras clave
Por Universidades
http://ocw.universia.net/
21. Búsqueda basada en Google Search Engine;
Se catergoriza/taggea el contenido.
La calidad de la representación semántica
o multilingue puede ser mejorada.
23. IV. BUSQUEDA DE
CONTENIDOS OCW EN OCW
UNIVERSIA
El Portal de OCW-Universia
Casos de Identificación de oportunidades de Mejora
en la búsqueda de contenidos
24. Caso 1 Búsqueda: concepto Linked Data
Valoración: Comportamiento similar a buscadores por
coincidencia de letras, no se búscan conceptos.
Linked Data describe
conceptos, y permite hacer
búsquedas a partir de
relaciones entre ellos.
25. Caso 2 Búsqueda: Por Areas
Valoración: Los cursos OCW están categorizados y
organizados alfabéticamente, su acceso no es directo; la
búsqueda no es sensible al área
2
Seleccionar un Area
Determinada
e.g. “Algebra”
1
26. área seleccionada:
1 Algebra
Cursos OCW de
2 Algebra
3 Búsqueda de curso
OCW dentro del Area
4
Resultados con OCWs que
no corresponde al área
27. Caso 3 A Búsqueda por Autores: Acceso por Autores
Valoración: Se acceden a los cursos OCW de cada Autor. Se observa que las
fichas de autor no facilitan cruzar relaciones por temas afines entre autores de
diferentes Universidades
Autor 1 Autor 1- UPM
Autor 2
Linked Data vincula datos
que comparten en el mismo
significado (predicados)
Autor 2 - UC3M
Otro Autor - UC3M
28. Caso 3-B Búsqueda por Autores: “Guadalupe Aguado” UPM
Valoración: En el buscador no se asocia cursos OCW con Autor; en
su lugar se asocia Instituciones en diversos idiomas (10 resultados)
LInked Data permite explotar
relaciones semanticas entre los
datos almacenados internamente
y datos externos de la nube de
LinkedData
29. Caso 4 Búsqueda por TAGs: e.g.: Ontologia | Ontologias
Valoración: Estas dos palabras son semánticamente similares, sin
embargo en el esquema de TAGs son diferentes y no están
vinculadas. Esto dificulta que se enlacen cursos relacionados
Los vocabularios RDF
tienen el potencial de
Ontologia
resolver este problema
Ontologias
30. Retos sobre Búsqueda de
información sobre OER/OCW
Enormes cantidades de datos no-estructurados y semi-estructurados sobre
OER/OCW
Esquemas de metadatos de OER enfocados como silos de información
Metadata of Open Educational Resources as Silos of Information
(repositorios de datos como Jardines Amurallados)
32. V Estado del Arte
Evolución de la Web
La Web De Documentos
La Web de Datos (LinkedData)
La Evolución de la Nube de Datos Enlazados
33. La Web está en evolución
The Web principle of designed
The Web was designed as an information space, with the goal that it should be
useful not only for human-human communication, but also that machines would
be able to participate and help.
[Tim Berners-Lee]
34. Estado Actual de la Web
(1) Contenido Almacenado en Silos de Información
Diversas Plataformas y Sistemas (CMS, APIs) almacenan Información.
Millones de datos contenidos en Millones de Documentos Web, embebidos en
CMS heterogéneos, de difícil acceso y procesamiento semántico.
(2) Descubrimiento y Reusabilidad Limitadas
No es posible reusar datos fuera de los CMS
Muy pocos datos de las páginas Web están disponibles en formatos procesables
por agentes máquina
36. Web of Documents
from human to human
Los links expresan relaciones entre documentos escritos en HTML,
conectan páginas, pero no conectan datos/significados/información.
37. la solución...
¿(1) máquinas inteligentes o
A.I.
(2)datos inteligentes ?
Information
dejando de lado el problema de la Silos
Inteligencia Artificial de entrenar a las
máquinas para que se comporten como
seres humanos, el enfoque de Web
Semántica es desarrollar lenguajes para
expresar la información en un
formato procesable por las máquinas
[TBL] RDF
data
39. The Linking Open Data cloud diagram, evolution
Next images sequence shows datasets that have been published in Linked
Data format, by contributors to the Linking Open Data community project and
other individuals and organisations. It is based on metadata collected and
curated by contributors to the CKAN directory. Last updated: 2010-09-22.
“Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/”
40. 20071008 25 datasets
http://richard.cyganiak.de/2007/10/lod/lod-
“Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/” This work is available under a CC-BY-SA license. datasets_2007-10-08.png
41. 20090714 95 datasets
http://richard.cyganiak.de/2007/10/lod/lod-
“Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/” This work is available under a CC-BY-SA license. datasets_2009-07-14.png
42. VI Linked Data en Educación
Algunas experiencias educativas
43. http://lucero-project.info/lb/
All public (RDF) data from rdf.ecs.soton.ac.uk and
eprints.ecs.soton.ac.uk is now available and can be
reused for any legal purpose,
http://sw.unime.it/loui/info.html
http://lodum.de/
44. IV Aplicación de Linked Data a
OCW Universia
Objetivos
Pasos realizados
Ejemplos de consultas
45. ¿Para qué publicar los Datos
OCW como Linked Data?
Mejorar Visibilidad, Acceso y Descubrimiento:
Reducir Redundancia: de Información en las Consultas
Facilitar el uso y reutilización: integrando los datos de OCW y
proveyendo un vocabulario común
Hacer accesibles los silos de información OCW
Promover la Innovación y Generar Valor Agregado como
Consorcio
46. VII. OCW UNIVERSIA
CONECTADO A LA WEB DE
DATOS
Propuesta
Por qué publicar OCW usando principios de Linked Data
Fases de Desarrollo
OCW Conectado a la Nube de LinkedData
47. La Cantidad de OCW en el Mundo plantea amplias
oportunidades de Mejora
Quantity14%OCW in the World
of
14% 1.497
53%
19%
1.525
OCWC MIT
5.737 Universia JOCW (Japan)
2.000
48. ¿Qué pasaría si la información de OCW-
Universia o de otras iniciativas OCW/
OER estuviera conectada con el resto de
49. Algunas posibilidades para generar valor al Consorcio:
Mejorar el descubrimiento, visibilidad, acceso, facilitar uso y
reutilización, permitir la recomendación de datos relacionados
con OCW a través de Linked Data
52. EJEMPLO: DATA contenido en la
página web de un OCW de UPM
OCW$
University
knowledge$area
Title
Author(s)
Department
syllabus
bibliography
year
ects$credits
Kme$autoself
descripKon
57. Buena Práctica para abrir datos de OER / OCW
• $publicar$recursos$en$la$Web$bajo$una$licencia$abierta
• $preferir$publicar$datos$estructurados$en$lugar$de$no$estructurados$
(ejemplo,$excel$en$lugar$de$imágenes)
• $usar$formatos$noRpropietarios$(ejemplo$CSV$en$lugar$de$EXCEL)
• $usar$URIs$para$idenKficar$cosas,$que$luego$la$gente$pueda$usar$
para$hacer$enlaces
• $enlazar$los$datos$a$otros$datos$con$el$fin$de$describir$y$ampliar$
el$contexto
• Tim Berners-Lee suggested a 5-star deployment scheme for Linked
Open Data and Ed Summers provided a nice rendering of it. from:$
hYp://lab.linkeddata.deri.ie/2010/starRschemeRby$$
58.
59. VIII. CAMINO EXPLORATARIO A LA
WEB DE DATOS EN OCW
UNIVERSIA
•Análisis de los datos
•Preparación de Datos de OCW-UNIVERSIA para LinkedData
•Escribir vocabulario
•Poblar el vocabulario
•Conciliar y desambiguar
•Explotar datos
60. Estrategia de Trabajo
• Fase 1. Integrar repositorios heterogéneos de OCW.
(Asegurar actualización de datos (ejemplo datos no
entregados), Interoperabilidad)
– Presencia de OCW-UNIVERSIA en el Cloud de Linked Data
– Análisis y Limpieza de datos
• Fase 2. Describir Semánticamente cada OCW.
– Establecer el vocabulario Linked Universia Data, a través del
que se integren los recursos OCW/OER con otros DataStores
en el mundo
– Identificar consultas de interés
61. Fuentes de datos OCW
– Interna:
• UNIVERSIA, Excel con los siguientes datos: (Titulo del Curso, URL
del Curso; Texto de Autores - no estaban separados por “;”-)
– Externa:
• WEB, Visita manual a cada sitio OCW, extracción de datos
adicionales, Actualización de cursos OCW que no constaban en el
EXCEL, nuestra fuente primaria.
• La Nube de Datos de LinkedData: DBPedia, GeoNames,
Vocabularios RDF. Con pocos atributos, la posibilidad de
desambiguar información es limitada.
62. Proceso de limpieza de datos
• Proceso de Limpieza
– Revisar el estado de cada curso OCW, visitando el sitio WEB a
través de URL que disponíamos, registrar el estado del curso.
Registrar nuevos cursos OCW, detectamos una falta considerable,
cursos repetidos y enlaces rotos.
– Separar Autores (para la región latinoamericana, varios de los
nombres son difíciles de reconocer Apellidos, Nombres, Género)
– Obtener más datos de cada curso, asignarles una categoría y
conectarlos con la nube de Linked Data (conciliar lenguaje, país,
universidad…)
– Extracción de contenido de cada curso: Syllabus, Facultades,
Universidades, Referencias, Guias de Aprendizaje, Recursos,
Referencias, etc (No hecho)
• Alineamiento de Datos a Vocabularios RDF
• Publicación de datos RDF y consultas con SPARQL
63. Estado$actual,$y$Datos
Universitie
s
GeoData
OCW
Language
Repositori
s Reference
es
s
Syllabus
Authors OCW
OpenCourseW
are
OER Education
Open$ al
Knowledg EducaKonal$ Resources
es Areas Resources
Learning Licenses
Guide
Test
Lectures
64.
65. Identificación de estado de cada
curso OCW
• En total se chequearon1525 cursos OCW en
los repositorios de los miembros del
consorcio OCW-Universia
• 0, Ok
• -1, URI rota
• -2, Autenticarse para ingresar al curso
• -3, Sin autores (cuando no se visualizan en
la página principal)
• -4, Duplicado
• -5, No es OCW
66. Los datos disponibles aún son escasos y dificultan la
reconciliación de información., Ejemplo: determinar género del
creador de un OCW tomando información disponible
idOCW Author género
73 Harald Sternberg R
107 J. I. Moreno R
107 A. Marín R
107 C. García R
107 A. Cuevas R
158 Berna SERRANO PRIETO R
202 NAYAT SÁNCHEZ-PI R
234 Yago Saez R
265 Akemi Galvez Tomida R
993 Txomin Ramírez Alzola R
994 Izaskun Basterrechea Muniozguren R
995 Izaskun Basterrechea Muniozguren R
1003 Koro de la Caba Ciriza R
1004 Izaskun Basterrechea Muniozguren R
1016 Olatz Irulegi Garmendia R
1256 OCW-UCA R
1483 Edorta Arana R
1493 Jon Jatsu Azkue Barrenetxea R
67. Esquema de Datos Disponible
IDOCWUNIVERSIA 1 2 3
Status OK OK OK
OCW Repositorio OCW de la Universidad Politécnica de OCW de la Universidad Politécnica de OCW de la Universidad Politécnica de
Madrid Madrid Madrid
Asignatura Climatología aplicada a la Ingeniería y Producción limpia, ecología industrial y Simulación en Ingeniería Mecánica (OCW
Medioambiente (OCW Universidad desarrollo sostenible (OCW Universidad Universidad Politécnica de Madrid)
Politécnica de Madrid) Politécnica de Madrid)
Enlace http://ocw.upm.es/ingenieria-agroforestal/ http://ocw.upm.es/ingenieria-quimica/ http://ocw.upm.es/ingenieria-mecanica/
climatologia-aplicada-a-la-ingenieria-y- produccion-limpia-ecologia-industrial-y- simulacion-en-ingenieria-mecanica
medioambiente desarrollo-sostenible
Autores Javier Almorox Alonso Fernando Gutiérrez Martín Jesús Félez Mindán; Gregorio Romero Rey;
BERTA SUAREZ
Lenguaje Spanish Spanish Spanish
Area Ciencias de la tierra y el espacio Ciencias tecnológicas e Ingeniería Ciencias tecnológicas e Ingeniería
Universidad Universidad Politécnica de Madrid Universidad Politécnica de Madrid Universidad Politécnica de Madrid
URL OCW http://ocw.upm.es/ http://ocw.upm.es/ http://ocw.upm.es/
URL Universidad http://www.upm.es/ http://www.upm.es/ http://www.upm.es/
Tag ingenieria-agroforestal ingenieria-quimica ingenieria-mecanica
72. IX. Siguientes Pasos
•Disponer de Datos de Repositorios OCW que forman parte
del Consorcio OCW-Universia
•Buscador / Recomendador Web
•Ampliar ambito a OCW Consortium
73. TED2009 Tim Berners-Lee on the next Web
Linked$Data$es$Interoperabiliad$de$Data
La necesidad de comunicación e interoperación entre sistemas de información distribuidos y autónomos se ha
incrementado con el uso de la Web.
e.g. Interoperabilidad entre Repositorios OCW/OER heterogéneos y distribuidos
76. Screen from LOCWD-Mobil to browse and select OCW Points of Interest Mobile’s map view of
OCW repositories in the user’s proximity
Screen from OCW-Recommender mobil app
79. Thank$you$for$your$
AYenKon
@nopiedra
this work is licensed under a Creative Commons Attribution 3.0 License http://creativecommons.org/licenses/by/3.0/ec/