SlideShare ist ein Scribd-Unternehmen logo
1 von 18
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
1 
Centro de Competencias en Recursos y Tecnologías 
Lingüísticas 
Núria Bel 
nuria.bel@upf.edu 
Grup de Tecnologies dels Recursos Lingüístics/ 
Institut Universitari de Lingüística Aplicada 
Departament de Traducció i Ciències del llenguatge
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
2 
Misión del centro 
El Centro de Competencias tiene la misión de promocionar 
la utilización de tecnología lingüística en la investigación 
en Humanidades y Ciencias Sociales. 
La tecnología es la que capacita a los investigadores para 
analizar grandes cantidades de datos.
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
3 
¿Grandes cantidades de datos en 
Humanidades ? 
Algunos ejemplos?
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
4 
Páginas Objetivo 
Mapping Texts, Torget AJ, 
Mihalcea R, Christensen J, 
McGhee G 
232.567 Descubrir patrones lingüísticos 
interesantes. 
Demography of Literary 
Form: Probabilistic 
Models for Literary 
History, Allen Beye 
Riddell 
12.370 Identificar géneros/grupos de 
novelas 
Studying How the Past is 
Remembered. Au Yeung 
C, Jatowt A 
2.000.000 Identificar referencias al pasado en 
artículos de prensa para representar 
la memoria colectiva de diferentes 
países. 
Is There a Political Bias? 
A Computational 
Analysis of Female 
Subjects' Coverage in 
Liberal and Conservative 
Newspapers. Shor E, et 
al. 
25.000.000 Estimar si la adscripción política de 
un medio explica un tratamiento 
diferente del seguimiento público de 
mujeres. 
Big Data: 39.000 quijotes ? 
Algunos ejemplos?
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
5 
12.370 pág.
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
6 
232.567 pág.
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
7 
2.000.000 pág.
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
8 
25.000.000 páginas
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
¿Cómo lo hacen los que ya están analizando 
grandes cantidades de textos en investigaciones de 
áreas de humanidades y ciencias sociales? 
9
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
10 
Enlaces para describir y dar información de la 
tecnología
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
11 
Y capacitar al usuario para utilizar las 
herramientas 
Alcalde de Casa 
Alemania 
Almirante de Castilla 
Arzobispo de Granada 
Choronica 
Ciudad Rodrigo 3 de 
agosto de 1641 
Conde Duque 
Conde Duque 
Conde Duque de Olivares 
Conde Duque de Olivares 
Conde de Olivares 
Conde de Olivares 
Corte 
Don Eugenio Carreto 
Don Garcerán Albañel 
Duque de Alba 
Duquesa de el Infantado 
España 
Granada 
Italia 
Madrid 
Madrid 11 de septiembre 
de 1624 
Marqués de Grana 
Meliso 
Miguel de Cárdenas 
Padre Francisco Aguado 
Presidente de Castilla 
Provincial de la Compañía 
de Jesús 
Reina Doña Isabel de 
Borbón 
Reinos
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
12 
El catálogo capacita a investigadores a partir de 3 
acciones: 
• Mirar qué han hecho los demás? 
– Entrada por áreas de investigación, enlaces a 
proyectos y artículos 
• Y cómo lo han hecho ellos? 
– Enlace directo a la información de la tecnología 
utilizada. 
• Para hacerlo YA! 
– Acceso directo a herramientas (servicio-web) con uso 
simplificado 
– Ejemplos (input/output) y textos propios para romper 
la barrera tecnológica.
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
13 
clarin-es-lab.org
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
14 
El catálogo cubre, por ahora, tecnología disponible 
para: 
• Frecuencia de palabras (formas – lemas) y 
combinaciones significativas de palabras 
(colocaciones). 
• Reconocimiento de Entidades con nombre y su 
frecuencia en textos. 
• Similitud Textual: comparación de textos para extraer 
información objetiva de similitud. 
Contenidos actuales: Oct-2014 
• Documentos enlazados: 123 
• Proyectos enlazados: 36 
• Herramientas (servicios web): 78
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
15 
Algunas cuestiones técnicas 
• Datos abiertos enlazados (Linked Open Data, LOD): 
– Permite enlazar con contenidos ya disponibles 
(wikipedia / dbpedia) y reducir costes. 
– Invita al usuario a navegar por la información creando 
su propio perfil formativo. 
Villegas, Marta; Melero, Maite; Bel, Núria (2014). "Metadata as Linked Open Data: mapping 
disparate XML metadata registries into one RDF/OWL registry". Proceedings of the Ninth 
International Conference on Language Resources and Evaluation (LREC'14): ELRA. Pàg. 393- 
400. 
Arano, Silvia, and Núria Bel. 2014. “Datos enlazados de publicaciones, proyectos Y herramientas 
informáticas para los Investigadores en humanidades digitales: el catálogo piloto del Centro 
Clarin IULA-UPF.” El Profesional de La Información [en Prensa].
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
16 
Agradecimientos 
“Fondo Europeo de Desarrollo Regional (FEDER), 
Programa operativo FEDER de Cataluña 2007‐2013, 
Objetivo 1”. 
Infraestructura europea “Common Language Resources 
and Technology Infrastructure” www.clarin.eu 
Programas abiertos de uso libre: 
- FreeLing http://nlp.lsi.upc.edu/freeling/ 
Proyectos CLARIN-CAT (DGR-GenCat), MetaNet4U (7FP 
CIP-PSP-270893), PANACEA (7FP-ITC-248064) 
Colaboradores: U. Vigo, UPV, UPC, UB, UAB, ULleida, U 
Jaén.
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
Más información en: 
17 
www.clarin-es-lab.org 
@CLARIN_ES_LAB 
iulatrl@upf.edu 
Para niños …
IULA-UPF Centre de Competències CLARIN 
Big Data y Humanidades -- Núria Bel 
18 
Créditos 
Este obra está bajo una licencia de Creative Commons Reconocimiento 3.0 España. Para ver una copia de esta licencia, visite 
http://creativecommons.org/licenses/by/3.0/es/ . 
2014, Núria Bel

Weitere ähnliche Inhalte

Ähnlich wie Centro de Competencias en Recursos y Tecnologías Lingüísticas

Biblioteca virtual
Biblioteca virtualBiblioteca virtual
Biblioteca virtual
smocking
 
Biblioteca virtual
Biblioteca virtualBiblioteca virtual
Biblioteca virtual
morotesoto
 
Biblioteca virtual
Biblioteca virtualBiblioteca virtual
Biblioteca virtual
mariohuapaya
 

Ähnlich wie Centro de Competencias en Recursos y Tecnologías Lingüísticas (20)

Bibliotic2013 folleto-completo
Bibliotic2013 folleto-completoBibliotic2013 folleto-completo
Bibliotic2013 folleto-completo
 
Bibliotic2013
Bibliotic2013Bibliotic2013
Bibliotic2013
 
Gremios y asociaciones profesionales
Gremios y asociaciones profesionalesGremios y asociaciones profesionales
Gremios y asociaciones profesionales
 
Trabj
TrabjTrabj
Trabj
 
Trabj
TrabjTrabj
Trabj
 
Trabj
TrabjTrabj
Trabj
 
Trabj
TrabjTrabj
Trabj
 
Trabj
TrabjTrabj
Trabj
 
Trabj(1)
Trabj(1)Trabj(1)
Trabj(1)
 
Uso De La InformacióN Cientifica En La Unmsm
Uso De La InformacióN Cientifica En La UnmsmUso De La InformacióN Cientifica En La Unmsm
Uso De La InformacióN Cientifica En La Unmsm
 
RECURSOS DE INFORMACIÓN EN CIENCIA Y TECNOLOGÍA - EJE TEMÁTICO 6
RECURSOS DE INFORMACIÓN EN CIENCIA Y TECNOLOGÍA - EJE TEMÁTICO 6RECURSOS DE INFORMACIÓN EN CIENCIA Y TECNOLOGÍA - EJE TEMÁTICO 6
RECURSOS DE INFORMACIÓN EN CIENCIA Y TECNOLOGÍA - EJE TEMÁTICO 6
 
Exposicinejetemtico6 grupo 3 gc_cg_nv_js
Exposicinejetemtico6 grupo 3 gc_cg_nv_jsExposicinejetemtico6 grupo 3 gc_cg_nv_js
Exposicinejetemtico6 grupo 3 gc_cg_nv_js
 
Redes Avanzadas y Comunidades de Investigación para la Gestión del Conocimiento
Redes Avanzadas y Comunidades de Investigación para la Gestión del ConocimientoRedes Avanzadas y Comunidades de Investigación para la Gestión del Conocimiento
Redes Avanzadas y Comunidades de Investigación para la Gestión del Conocimiento
 
Cemprodic
CemprodicCemprodic
Cemprodic
 
Fernanada Peset - ¿Qué hacen los investigadores con sus datos?
Fernanada Peset - ¿Qué hacen los investigadores con sus datos?Fernanada Peset - ¿Qué hacen los investigadores con sus datos?
Fernanada Peset - ¿Qué hacen los investigadores con sus datos?
 
Biblioteca virtual
Biblioteca virtualBiblioteca virtual
Biblioteca virtual
 
Biblioteca virtual
Biblioteca virtualBiblioteca virtual
Biblioteca virtual
 
Biblioteca virtual
Biblioteca virtualBiblioteca virtual
Biblioteca virtual
 
Biblioteca virtual
Biblioteca virtualBiblioteca virtual
Biblioteca virtual
 
Biblioteca virtual
Biblioteca virtualBiblioteca virtual
Biblioteca virtual
 

Kürzlich hochgeladen

Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Fernando Solis
 

Kürzlich hochgeladen (20)

UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docxUNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
 
Desarrollo y Aplicación de la Administración por Valores
Desarrollo y Aplicación de la Administración por ValoresDesarrollo y Aplicación de la Administración por Valores
Desarrollo y Aplicación de la Administración por Valores
 
Posición astronómica y geográfica de Europa.pptx
Posición astronómica y geográfica de Europa.pptxPosición astronómica y geográfica de Europa.pptx
Posición astronómica y geográfica de Europa.pptx
 
PLAN LECTOR 2024 integrado nivel inicial-miercoles 10.pptx
PLAN LECTOR 2024  integrado nivel inicial-miercoles 10.pptxPLAN LECTOR 2024  integrado nivel inicial-miercoles 10.pptx
PLAN LECTOR 2024 integrado nivel inicial-miercoles 10.pptx
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdf
 
Sesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdfSesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdf
 
activ4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfactiv4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdf
 
Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024
 
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptx
 
Lecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigosLecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigos
 
Educacion Basada en Evidencias SM5 Ccesa007.pdf
Educacion Basada en Evidencias  SM5  Ccesa007.pdfEducacion Basada en Evidencias  SM5  Ccesa007.pdf
Educacion Basada en Evidencias SM5 Ccesa007.pdf
 
Ensayo Paes competencia matematicas 2 Preuniversitario
Ensayo Paes competencia matematicas 2 PreuniversitarioEnsayo Paes competencia matematicas 2 Preuniversitario
Ensayo Paes competencia matematicas 2 Preuniversitario
 
Power Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptxPower Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptx
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
 
AEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptxAEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptx
 
Supuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docxSupuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docx
 
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdf
 
prostitución en España: una mirada integral!
prostitución en España: una mirada integral!prostitución en España: una mirada integral!
prostitución en España: una mirada integral!
 

Centro de Competencias en Recursos y Tecnologías Lingüísticas

  • 1. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 1 Centro de Competencias en Recursos y Tecnologías Lingüísticas Núria Bel nuria.bel@upf.edu Grup de Tecnologies dels Recursos Lingüístics/ Institut Universitari de Lingüística Aplicada Departament de Traducció i Ciències del llenguatge
  • 2. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 2 Misión del centro El Centro de Competencias tiene la misión de promocionar la utilización de tecnología lingüística en la investigación en Humanidades y Ciencias Sociales. La tecnología es la que capacita a los investigadores para analizar grandes cantidades de datos.
  • 3. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 3 ¿Grandes cantidades de datos en Humanidades ? Algunos ejemplos?
  • 4. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 4 Páginas Objetivo Mapping Texts, Torget AJ, Mihalcea R, Christensen J, McGhee G 232.567 Descubrir patrones lingüísticos interesantes. Demography of Literary Form: Probabilistic Models for Literary History, Allen Beye Riddell 12.370 Identificar géneros/grupos de novelas Studying How the Past is Remembered. Au Yeung C, Jatowt A 2.000.000 Identificar referencias al pasado en artículos de prensa para representar la memoria colectiva de diferentes países. Is There a Political Bias? A Computational Analysis of Female Subjects' Coverage in Liberal and Conservative Newspapers. Shor E, et al. 25.000.000 Estimar si la adscripción política de un medio explica un tratamiento diferente del seguimiento público de mujeres. Big Data: 39.000 quijotes ? Algunos ejemplos?
  • 5. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 5 12.370 pág.
  • 6. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 6 232.567 pág.
  • 7. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 7 2.000.000 pág.
  • 8. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 8 25.000.000 páginas
  • 9. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel ¿Cómo lo hacen los que ya están analizando grandes cantidades de textos en investigaciones de áreas de humanidades y ciencias sociales? 9
  • 10. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 10 Enlaces para describir y dar información de la tecnología
  • 11. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 11 Y capacitar al usuario para utilizar las herramientas Alcalde de Casa Alemania Almirante de Castilla Arzobispo de Granada Choronica Ciudad Rodrigo 3 de agosto de 1641 Conde Duque Conde Duque Conde Duque de Olivares Conde Duque de Olivares Conde de Olivares Conde de Olivares Corte Don Eugenio Carreto Don Garcerán Albañel Duque de Alba Duquesa de el Infantado España Granada Italia Madrid Madrid 11 de septiembre de 1624 Marqués de Grana Meliso Miguel de Cárdenas Padre Francisco Aguado Presidente de Castilla Provincial de la Compañía de Jesús Reina Doña Isabel de Borbón Reinos
  • 12. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 12 El catálogo capacita a investigadores a partir de 3 acciones: • Mirar qué han hecho los demás? – Entrada por áreas de investigación, enlaces a proyectos y artículos • Y cómo lo han hecho ellos? – Enlace directo a la información de la tecnología utilizada. • Para hacerlo YA! – Acceso directo a herramientas (servicio-web) con uso simplificado – Ejemplos (input/output) y textos propios para romper la barrera tecnológica.
  • 13. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 13 clarin-es-lab.org
  • 14. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 14 El catálogo cubre, por ahora, tecnología disponible para: • Frecuencia de palabras (formas – lemas) y combinaciones significativas de palabras (colocaciones). • Reconocimiento de Entidades con nombre y su frecuencia en textos. • Similitud Textual: comparación de textos para extraer información objetiva de similitud. Contenidos actuales: Oct-2014 • Documentos enlazados: 123 • Proyectos enlazados: 36 • Herramientas (servicios web): 78
  • 15. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 15 Algunas cuestiones técnicas • Datos abiertos enlazados (Linked Open Data, LOD): – Permite enlazar con contenidos ya disponibles (wikipedia / dbpedia) y reducir costes. – Invita al usuario a navegar por la información creando su propio perfil formativo. Villegas, Marta; Melero, Maite; Bel, Núria (2014). "Metadata as Linked Open Data: mapping disparate XML metadata registries into one RDF/OWL registry". Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14): ELRA. Pàg. 393- 400. Arano, Silvia, and Núria Bel. 2014. “Datos enlazados de publicaciones, proyectos Y herramientas informáticas para los Investigadores en humanidades digitales: el catálogo piloto del Centro Clarin IULA-UPF.” El Profesional de La Información [en Prensa].
  • 16. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 16 Agradecimientos “Fondo Europeo de Desarrollo Regional (FEDER), Programa operativo FEDER de Cataluña 2007‐2013, Objetivo 1”. Infraestructura europea “Common Language Resources and Technology Infrastructure” www.clarin.eu Programas abiertos de uso libre: - FreeLing http://nlp.lsi.upc.edu/freeling/ Proyectos CLARIN-CAT (DGR-GenCat), MetaNet4U (7FP CIP-PSP-270893), PANACEA (7FP-ITC-248064) Colaboradores: U. Vigo, UPV, UPC, UB, UAB, ULleida, U Jaén.
  • 17. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel Más información en: 17 www.clarin-es-lab.org @CLARIN_ES_LAB iulatrl@upf.edu Para niños …
  • 18. IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 18 Créditos Este obra está bajo una licencia de Creative Commons Reconocimiento 3.0 España. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/3.0/es/ . 2014, Núria Bel

Hinweis der Redaktion

  1. 423.000 p´ginas son unos 650 Quijotes /primera parte. Dicen que se tarda 1 semana en leer el quijote, pues serían 13 años de lectura para una persona normal. 1 quijote – 1 semana – 39000 semanas a 48 semanas año = 812 años Explicarlo poco a poco. Hay que hacer ver que vale la pena?
  2. The corpus contains 35 gothic novels, 22 silver fork novels, 18 national tale novels, and 18 randomly selected novels.
  3. Mirar las coincidencias sobre el futbol alrededor de los late 70. holandesa. La editorial Taschen publica ahora The Beautiful Game. El fútbol en los años setenta, repaso fotográfico a una de las eras doradas del deporte rey.