Presentación de Leonardo Machett - Docente de Ciencia de la Información - Bibliotecología - Pontificia Universidad Javeriana.
Participación en la jornada de capacitación del Primer Encuentro de Bibliotecas en Tecnologías de Información y Comunicación - Bibliotic 2009
Bogotá - Colombia, mayo 12 al 15 de 2009
2. ¿Por qué la búsqueda y la
recuperación de información en
Internet son tareas frecuentemente
tediosas y difíciles?
3. El fases de la Historia según Giambattista Vico
en su obra: Principios de una Ciencia Nueva
Edad Edad Edad Edad de Nueva Edad
Teocrática Aristocrática Democrática Caos Democrática
8. Azul profundo: net, ca, us
Verde: com, org
Rojo: mil, gov, edu
Amarillo: jp, cn, tw, au, de
Magenta: uk, it, pl, fr
Dorado: br, kr, nl
Blanco: desconocido
Mapa parcial de Internet por Opte Project (15 de enero de 2005)
9. El ciclo de la Información
http://www.libraries.psu.edu/instruction/infocycle/infocycle.html
10. ¿Qué es Internet?
TCP/IP
HTTP (WWW)
TELNET
NNTP (news) y
FTP y P2P
IPTV (Tv)
SMTP (mail), GOPHER y
VoIP e IRC WHAIS
Acceso Remoto
a otras máq.
(juegos en
línea)
11. ¿Qué es y no es la Web?
¿Qué no es ¿Qué es la
la Web? Web?
12. ¿Qué diferencias hay entre la recuperación
en la Web y la recuperación tradicional?
Recuperación Recuperación
tradicional en la WWW
no hay permanencia, los
principio de autoridad documentos cambian de
forma y lugar
intentos de normalización
uso de lenguajes
en la descripción de
documentales
contenidos
interfaz homogénea de
interfaces diversas
interrogación
carencia de control
control terminológico
terminológico
13. Una anatomía de la URL (Localizador
Uniforme de Recursos)
http://www.javeriana.edu.co/biblos/tesis/TESIS16.pdf
14. Una anatomía de la URL
Dominios: La ICANN es el acrónimo en inglés de la Corporación de Internet para la
Asignación de Nombres y Números.
Dominios de primer nivel Dominios geográficos:
• com para compañías y empresas
comerciales • co Colombia
• net para organizaciones relacionadas • uk Reino Unido
con Internet
• org para organizaciones que no se
pueden clasificar en ninguna otra
• es España
categoría • fr Francia
• edu para instituciones educativas
• gov para el gobierno • ca Canadá
• mil para las Fuerzas Armadas
• biz para negocios y empresas • it Italia
comerciales
• info para proveedores de servicios de • eu Unión Europea
información
• name o ~ para páginas personales
• tv Tuvalu
15. La Web
Indizable
Estática
Pública
Semántica
Dinámica
Invisible
Fuente: Ricardo Baeza Yates. http://www.dcc.uchile.cl/~rbaeza/inf/webfaces.gif
16. Umberto Eco
quot;Un exceso de información puede ser tan peligroso como una carenciaquot;
SEGÚN UMBERTO ECO, LOS EUROPEOS SABEN CADA VEZ MENOS DE HISTORIA POR CULPA DE INTERNET. En : El Clarín [Texto en línea], Buenos Aires : (24, Oct., 2006); [Citado el 24 de octubre de 2006]. Disponible en
Internet: <http://www.clarin.com/diario/2006/10/24/um/m-01296295.htm>
17. La Recuperación de Información
ciencias de la
computación
física matemáticas
ciencias de la
estadística Recuperación información
de
Información
Lingüística bibliotecología
arquitectura psicología
de información cognitiva
18. La RI como sistema de comunicación
asíncrono
Productor de Consumidores
Información Selección de
de Información
documentos
(Autores de (Usuarios de
Documentos) Información)
19. Problema de los tres lenguajes
•Es en el que el usuario plantea
la necesidad
Lenguaje
natural
(humano):
Lenguaje
controlado:
•Adecuar lo expresado por el usuario en
expresiones de conceptos delineados y
relaciones a los términos y relaciones que
puedan haber sido utilizados para Lenguaje de
representar el contenido de los documentos
(predicción)
interrogación del
Motor
•Transformar las expresiones
resultantes en un lenguaje que
extrae del sistema y aquellos
documentos que cumplen los
requisitos establecidos
(práctica)
20. Modelo elemental para la RI según
Ingwersen
http://vip.db.dk/pi/iri/files/Ingwersen_IRI.pdf
Representación Consulta del
Archivo Invertido
del Documento (Función de
usuario
emparejamiento)
21. El Proceso Genérico de Recuperación de Información Tramullas (2001)
Necesidad de
Información
Definición de la
necesidad del usuario
Selección y ordenación
de las fuentes y recursos
de información a utilizar
Consulta de los recursos
de información
Evaluación de resultados
Revisión y toma de
decisiones
Presentación al usuario
22. ¿Cómo funciona un motor de búsqueda?
Almacena
Busca en el
Información
Índice Envía la consulta
Crawler o Archivo Motor de Solicitud de
Indexador Indice Búsqueda información
Consigue la
Adquiere lista de
concordancias Regresa resultados en formato HTML (Vínculos)
Información
Página de
Páginas HTML Resultados
El usuario abre una de las paginas encontradas
23. Zipf y Luhn
Términos
con
Términos mucha
cercanos a frecuencia
la
Términos Constante
con baja
frecuencia
24. ¿Qué significa Pensar?
La clave de buscar gravita en preguntarse: ¿Cómo pensamos?
(El pensador de Rodin exposición en Suiza)
26. Tipos de razonamiento analizados por
Pierce
Deductivo
Inductivo
Abductivo
Razonamiento
27. Aplicando lo anterior a la
Recuperación de Información
Deductivo • Directorios Web
• Motores de Búsqueda
Inductivo • Metabuscadores
• En desarrollo (Búsqueda y
Abductivo recuperación en lenguaje natural)
38. Recuperar a partir de operadores
búsqueda en Google
Link: Lista todos los enlaces, que teniendo page rank 4 o más, Inurl: Busca la palabra que le especifiquemos en la url, pero
apuntan a nuestra página. Su uso es sencillo: no pide que todas estén en la url como allinurl.
link:www.direccion.com Intitle: Busca la palabra que le especifiquemos en el título,
Allinurl: Muestra todas las páginas indexadas de un dominio pero no es necesario que todas estén en el título. Por ejemplo
indicado, o bien, las páginas que tienen todas las palabras intile:clave1 clave2 Busca clave1 en la url.
especificadas en su url. Su sintaxis es: Cache: Nos lleva directamente a la versión que tiene google
allinurl:www.dominio.com de una determinada página. cache:www.dominio.com Y
Allintitle: Muestra las páginas que tienen todas las palabras directamente a la caché que tiene almacenada google de
especificadas en su título. allintitle: palabra1 palabra2 www.dominio.com.
Devuelve las páginas que tienen palabra1 y palabra2 en su Related: Según google nos muestra sitios relacionados con la
título. dirección que le especifiquemos, a saber que criterio sigue,
Allintext: Páginas que tengan todas las claves especificadas porque los resultados más que malos, son nulos. No merece
dentro de su body. la pena usarlo.
Allinanchor: Páginas que tengan en el texto que las apuntan Stocks: Nos lleva a Yahoo Finance y nos muestra información
las palabras especificadas. de tipo financiero relacionada con la marca que le
Site: Indica un determinado dominio que le indiquemos para indiquemos.
realizar la búsqueda. Carece de sentido si no le especificamos Filetype: Busca un tipo de documento especificado, por
algo más. Un ejemplo de su uso sería: site:www.dominio.com ejemplo: filetype:doc clave Busca ficheros '.doc' relacionados
+palabra Esto busca todas las páginas con alguna ocurrencia con 'clave'. ¿Útil, no?.
'palabra' dentro del dominio especificado. Define: Este es el comando más reciente; busca la definición
Info: Nos muestra información sobre la página principal de un de una palabra indicada, de momento sólo funciona con
dominio especificado.info:www.dominio.com palabras en inglés. Uso: define:mouth.
http://www.google.com/
46. ¿Qué es la Web Es una extensión de la Web actual dotada de significado, esto es, un
espacio donde la información tendría un significado bien definido, de manera
Semántica? que pudiera ser interpretada tanto por agentes humanos como por agentes
computerizados. (Tomado de: Lamarca)
El objetivo de la Web Semántica es que la Web
pase de ser una colección de documentos a Fuente: Mapa conceptual de la Web Semántica. Keilyn Rodríguez Perojo y Rodrigo Ronda León.
quot;Web Semántica: un nuevo enfoque para la organización y recuperación de información en la webquot;.
convertirse en una base de conocimiento. Acimed, vol. 13, núm. 6, November-December 2005.
http://bvs.sld.cu/revistas/aci/vol13_6_05/aci030605.htm
49. 1. Los libros están para el Shiyali Ramamrita Ranganathan
uso
2. Cada libro tiene su lector
3. Cada lector tiene su libro
4. Salve el tiempo del lector,
o él salvara su propio
tiempo tomando un atajo a
la información , a costa de
su calidad
5. La biblioteca es un
organismo vivo que crece
50. Necesidad Valoración Uso de la Información
Decisión Análisis Aplicación
Expresión Generalización Aprendizaje
Inicio Evaluación Uso
Localización Organización Comunicación
Búsqueda Categorización Uso ético
Selección Estructuración Reconocimientos
Recuperación Organización Estándares de estilo
[*] IFLA. Guidelines on information literacy for lifelong learning. Veracruz : La
federación, 2006. 60 p. [Texto en línea]. [Consultado el: 3 de septiembre de 2006].
Disponible en Internet: <http://www.ifla.org/VII/s42/pub/IL-Guidelines2006.pdf>.
51. … La Biblioteca
generalmente esta
orientada al usuario pero…
Nini Marshall en la película: “hay que educar a Nini” Afiche de la Biblioteca Nacional de la Argentina 2005
52. … Existe algo llamado ¡Ansiedad
causada por la Biblioteca!
53.
54. La Ansiedad de la Biblioteca ¿Qué es y
Por qué sucede?
Ansiedad Satisfacción
55. La Ansiedad de la Biblioteca ¿Qué es y
Por qué sucede?
Bibliotecario Bibliotecario
ayer hoy
Custodio Ayudantes
Guardián Guías
56. ¿Qué es la Ansiedad causada por la
Biblioteca?
Es una combinación de emociones
experimentadas por muchos usuarios
(especialmente por los que pisan por
primera vez una biblioteca. Se caracteriza
porque el usuario:
• Comienza a sentirse abrumado por el tamaño de los
libros o de los resultados de una búsqueda.
• No sabe como buscar información, ni como esta
organizada la biblioteca o la web.
Fuente: http://www.smcm.edu/Users/cerabinowitz/BYTE/sld005.htm
57. ¿Qué es la Ansiedad causada por la
Biblioteca? (continuación)
– Carece de seguridad en si mismo acerca de
cómo comenzar a trabajar en las tareas y
trabajos asignados.
– Sentimiento de ineptitud (“Soy el único que no
sabe”)
– Vacila para preguntar (“Yo se que esta es una
pregunta tonta…”)
Fuente: http://www.smcm.edu/Users/cerabinowitz/BYTE/sld005.htm
58. ¿Qué es la Ansiedad causada por la
Biblioteca?
El usuario e incluso el referencista
son de cierta manera detectives
que tiene que descifrar códigos
confusos , perderse en laberintos y
hoy en día lidiar con las TIC, la cual
aumenta su ansiedad en caso de
no dominarla
59. Ante ello uno como bibliotecario debe tener una
… ena disposición de servicio
60. Ante ello uno como referenciasta debe tener
una buena disposición para ayudar
64. “que cada ojo trate por
cuenta propia, sin fiarse
en mediador .”
William Shakespeare,
Mucho ruido y pocas nueces
65. ¿Qué es el pensamiento crítico?
• Mona McCormick:
– Es la habilidad para distinguir los hechos de la
ficción, para establecer opiniones, y para
reflexionar sobre el por qué aceptamos los
“hechos” y estamos de acuerdo con las opiniones
de otros.
66. Evaluar sitios Web
• Accesibilidad
– W3C MarkUp Validation
Service. http://validator.w3.org/ Servicio de
Verificación de marcas o etiquetas del W3C que
chequea si los documentos HTML son conformes
con las Recomendaciones del W3C World Wide
Web Consortium para los
estándares HTML y XHTML.
68. Si consideramos los motores de búsqueda en la Web
actuales llegamos a la conclusión:
•Se siguen utilizando los índices que son muy similares
a los utilizados por los bibliotecarios hace un siglo.
•¿Qué ha cambiado entonces en la
Búsqueda?
69. Cambios en la RI en un entorno
“interactivo”
Por primera vez
El avance en las en la historia,
Es más barato
1 tener acceso a
diversas fuentes
de información
2 TIC ha
proporcionado
un mayor acceso
a las redes.
3 muchas personas
tienen acceso
libre a la
publicación en
un gran medio
70. Preguntas a futuro de la RI en un
entorno “interactivo”
• En el mundo dinámico de la Web y de las Bibliotecas
1 digitales ¿Cuáles son las técnicas que permiten
recuperar información de mayor calidad? A gente que
le resulta difícil o imposible hacerlo
2 • ¿Cuáles son las técnicas que indizan más rápido,
reduciendo el tiempo de consulta?
3 • ¿Cómo mejoramos la comprensión del comportamiento
del usuario en relación al diseño y desarrollo de nuevas
estrategias de recuperación de información?
71. Cuestiones prácticas
Seguridad
• Transacciones Seguras
Intimidad
• Con frecuencia, las personas están dispuestas a sacrificar su intimidad por información con
tal de que no se convierta esta en información pública
Derechos de autor
• Legislación , Fare use, CC, Derechos de Autor, Canón,
Digitalización
• OCR (Google Books)
El intercambio de idioma de la recuperación
• Se consulta en un idioma y se recuperan los documentos en otros idiomas
72. Para saber más
• Opte Project: http://opte.org/maps/
• Web Semántica:
http://www.w3c.es/Divulgacion/Guiasbreves/We
bSemantica
• Hakia vs Google:
http://club.hakia.com/challenge/default2.aspx?q
=
• Noticia sobre Wolfram-Alpha:
http://www.elpais.com/articulo/internet/primer/
buscador/inteligente/elpeputec/20090507elpepu
net_3/Tes
73. Recuerde que de usted depende hacer un buen
uso de las herramientas e igualmente debe velar
por lograr que sus usuarios desarrollen sus
propias habilidades en el acceso, la evaluación y
el uso de la información en la Web.