Presentación de la comunicación presentada al XI Congreso ISKO España - I Congreso ISKO Espanha-Portugal, disponible en:
BAÑOS-MORENO, María-José, PASTOR-SÁNCHEZ Juan Antonio y MARTÍNEZ-BÉJAR, Rodrigo. Propuesta de actualización de macro-tesauros a partir de noticias de divulgación científico-tecnológica. En: RIBEIRO, Fernanda y CERVEIRA, Maria Elisa (org.). Informação e/ou Conhecimento: as duas faces de Jano. Porto: Faculdade de Letras da Universidade do Porto - CETAC.MEDIA, 2013. I Congresso ISKO Espanha e Portugal / XI Congresso ISKO Espanha, Oporto, 7 a 9 de noviembre de 2013. pp. 99-112. http://www.youblisher.com/p/745761-I-Congresso-ISKO-Espanha-e-Portugal-XI-Congreso-ISKO-Espana/.
Los tesauros son herramientas de organización del conocimiento necesarias para el control de la información, más aún en el mundo de la información digital. Sin embargo, muchos de ellos adolecen de una falta de actualización que reduce considerablemente su utilidad. Este trabajo tiene precisamente como objetivo analizar el grado de actualización de dos de los tesauros más importante, el de la UNESCO y el de la Unión Europea (Eurovoc). Así, para la descripción de artículos de prensa, se procedió a la extracción de términos descriptivos de contenido a partir de titulares de artículos de divulgación científico-tecnológica publicados en prensa digital. A continuación mediante técnicas de Recuperación de Información se buscaron equivalencias con los tesauros mencionados anteriormente. Los resultados obtenidos muestran un nivel de equivalencia exacta o cercana que ronda el 50%. Este porcentaje se aproxima al 75% considerando equivalencias jerárquicas y asociativas. Este dato permite confirmar que ambos macro-tesauros pueden ser la base para elaborar otros vocabularios. En el caso concreto de su aplicación para la indización de noticias de divulgación científico-tecnológica, Eurovoc es ligeramente mejor que el Tesauro de la UNESCO, puesto que los términos y relaciones están más actualizados. El nivel de equivalencia exacta o cercana indica que las noticias de divulgación científico-tecnológica constituyen una fuente adecuada para la actualización de tesauros bien para la inclusión de nuevos términos o para la redefinición de las relaciones entre estos
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Propuesta de actualización de macro-tesauros a partir de noticias de divulgación
1. Actualización de
tesauros a partir de
noticias de divulgación
María-José Baños-Moreno, Juan Antonio Pastor-Sánchez,
Rodrigo Martínez-Béjar
I Congreso ISKO España y Portugal / XI Congreso ISKO España – Oporto, 7/9 de noviembre de 2013
2. INTRODUCCIÓN
● Contexto: crecimiento exponencial de
información en Internet
● Herramientas de control: tesauros, para 1)
la descripción de documentos; 2) la
recuperación de información; 3) construir
otros productos documentales
● Destacan: Unesco y Eurovoc.
● Requisito fundamental: actualización
frecuente
3. OBJETIVOS
● Analizar el grado de actualización de los
Tesauros de la UNESCO y de la Unión
Europea (Teurovoc);
● Conocer si los Tesauros de la UNESCO y
Eurovoc pueden ser utilizados para indizar
noticias;
4. METODOLOGÍA
● Obtención de muestra mediante:
○ Selección de países punteros en ciencia y tecnología;
○ Selección del periódico más leído por país;
○ Selección de una noticia diaria de la sección de
ciencia y tecnología;
○ Extracción de entre 1 y 6 palabras clave mediante
indización en lenguaje natural;
○ Traducción a español, francés e inglés
--> Corpus de 320 noticias y 599 términos.
5. METODOLOGÍA
● Construcción de una colección de términos de
tesauro, a la que se interroga posteriormente:
● Búsqueda de equivalencias, mediante Apache Solr,
entre pares de términos según score proporcionado
6. METODOLOGÍA
● Búsqueda de equivalencias, mediante Apache Solr:
Por palabras en índice general (Q1).
Literal en el campo descriptor (Q2).
Literal en el campo no-descriptor (Q3).
Lematizada de expresión en el campo descriptor (Q4).
Lematizada de expresión en el campo no-descriptor
(Q5).
○ Lematizada por palabras en campo descriptor (Q6).
○ Lematizada por palabras en campo no-descriptor (Q7)
○
○
○
○
○
7. METODOLOGÍA
● Apache Solr proporciona una medida de similitud
(score) que clasifica los resultados:
○ A las consultas Q2 y Q3 se les aplicó un factor de
potenciación del score de 5 y 3.
○ Experimentalmente se comprobó la necesidad de
potenciar los resultados de la consulta Q1, aplicando en
este caso un boost de 2,5.
○ Los primeros datos obtenidos aconsejaron establecer un
umbral mínimo de score por debajo del cual debían
desecharse dichos resultados: 0,4 para el Tesauro de la
UNESCO y 0,5 para EUROVOC
9. METODOLOGÍA
● Clasificación en función de la relación entre
los pares de términos en:
○
○
○
○
○
○
○
Correctos (TC)
Sinónimos (TS)
Específicos (TE)
Genéricos (TG)
Término relacionado (TR);
Término nuevo (TN);
Falso equivalente (TFE)
10. RESULTADOS
● Varios cálculos de precisión:
○ Precisión exacta (TC) y precisión cercana (TC+TS): Casi
50% de términos indizados aparecían en el tesauro;
○ Precisión total (TC+TS+TG+TE): Cerca de 75% de
palabras clave extraídas mantienen alguna relación con
los términos de tesauros, aunque no implica una
recuperación satisfactoria
11. CONCLUSIONES
● Casi la mitad de los términos extraídos, son recogidos por los dos
tesauros. Se puede estimar que existe cierta preocupación por su
renovación;
● De las equivalencias halladas, más de un 25% son de tipo jerárquico
(TE, TG) o asociativo (TR). Una búsqueda eventual por dichas
palabras clave no aportaría el resultado más adecuado.
● Para casi un 25% de los términos extraídos no se halló ninguna
equivalencia (TN) o era falsa (TFE).
● Tanto el tesauro de la Unesco como Eurovoc necesitan incrementar
su frecuencia de actualización;
● En su estado actual, estos tesauros no pueden ser utilizados para
indizar noticias;
12. LÍNEAS FUTURAS
● Los lenguajes pivote resuelven casos de
homonimia, polisemia y riqueza lingüística.
En el futuro se podrían añadir otras lenguas al
estudio
● Apache Solr, a diferencia de otras técnicas,
como N-gramas, detecta automáticamente
términos nuevos. Otra línea podría centrarse
en el análisis de las búsquedas para mejorar
los resultados