Difusión e integración de contenidos mediante feeds

¡Un Enfoque Realmente Simple!

Los Problemas Diarios
Los Costes de Difusión y Explotación de la Información
Recolección de Información… ¡y más allá!

 El manejo de los sistemas de información supone mucho
esfuerzo… ¡y tiempo!
 Lectura y contestación de e-mail: 14.5 he/s (horas empleado/semana)
 Crear documentos: 13.3 he/s
 Búsquedas: 9.5 he/s
 Archivar y organizar documentos: 8.3 he/s
 Rellanar formularios electrónicos: 5.6 he/s
 Según los estudios de la consultora IDC, además se gasta el
tiempo con…
 Fusión de documentos con diferentes formatos: 3.8 he/s
 Búsquedas infructuosas: 3.5 he/s
 Cambiar el formato a documentos: 2.4 he/s
 Problemas de control de versiones: 2.2 he/s

 Estamos rodeados de “aplicaciones” (programas
software), de “dispositivos” (ordenadores, teléfonos
móviles, PDAs, faxes, etc.)
 …pero también de sistemas organizativos, de jerarquías
ordinales, de canales de comunicación (mandatos
verbales, escritos, e-mails, post-its, etc.)
▪ …que afectan a multitud de documentos y tareas, que típicamente
requieren… ¡gestión, gestión, gestión!
 Los síntomas que delatan los problemas de tanto
trasto son: numerosas hojas de cálculo, varias
agendas, e-mail sin procesar/contestar, estructuras
complejas de directorios y archivos, etc.

 Adicionalmente, la información que gestionamos y
procesamos necesita ser también traspasada a otros,
probablemente modificada o matizada, y tal vez sin perder
de vista el original (notas, revisiones, etc.)
 Finalmente cada actor (empleado, cliente, proveedor,
agente, consultor, colega, etc.) se convierte en un foco de
difusión que añade más confusión a la gestión diaria de la
información, cambiando formatos, incorporando nuevos
canales a contenidos… ¡y así sucesivamente!
 Podría decirse que, con este panorama, la eficacia en la
gestión empresarial está ligada a la capacidad intuitiva de
hacer caso omiso de la mayor parte de la información
gestionada (tal como propugna el Pensamiento Sistémico-
Generalista de Gerald M. Weinberg )

 Atendiendo a los principios de “productividad
personal”, la mejor forma de optimizar el tratamiento
de información heterogénea es ordenarla en una cola
única (o en muy pocas colas)
 …como la cola de recepción de un CAU ó 010 o Zuzenean o
similar (faxes, emails, llamadas, etc.)
 …como la Bandeja de Entrada del e-mail
 En definitiva: nos hacen falta Puntos de Recolección
(PR) de la información
 …para que desde estos PR se pueda procesar, explotar,
difundir, publicar, combinar, salvaguardar, archivar, etc.
▪ ¡Ay! Si contáramos con un formato común para toda la información
que manejamos… ¡cuánto más fácil sería su gestión!

 ¿Dónde almacenamos la información?
 Reflexión (oficina, casa, en viaje, etc.)
▪ Y… ¿funcionan nuestros PR?
 Identificación de PR “Autorizados”
 Se trata de cribar y/o crear un conjunto razonablemente corto de PRs
(que no incluya nuestra memoria)
 Algunos PR Básicos
 Una bandeja física de “Entradas” o una carpeta móvil con separadores
 Un bloc de papel o digital
 Buzón de voz
 La lista de tareas [de MS Outlook o similar]
 E-mail
 Nuestro PR más versátil
 ¡El PR de Feeds!

 Aunar la información en una cola está bien… pero no
es suficiente
 Que las bandejas de entrada del e-mail raramente estén
vacías lo demuestra
 Las operaciones diarias tienen que ver con el manejo
de diferentes programas (nóminas, estados
financieros, noticias, etc.)
 …y lo ideal sería que el uso de tantos diversos programas
se minimizara.
▪ …y aún mejor resultaría que la información pudiera ser “leída” (por
humanos) y “procesada” (por máquinas) sin necesidad de cambios y
zarandajas de formatos.
 Recolectar -> difundir -> re-difundir -> combinar

Contenidos y Documentos
Sindicación… ¡Simple!

La Dificultad de mover
Documentos

 Un documento es un paquete informativo estructurado
y ajustado a un formato: PDF, Word, Excel, Powerpoint,
etc.
 Un contenido es un trozo de información no
necesariamente estructurado y que tiene sentido,
individualmente o combinado, al menos para un
receptor.
 …como la latitud/longitud de una ubicación, o un comentario
sobre un hiper-enlace Web.
▪ Un documento es un contenido, claro.
 Nos centraremos en los contenidos
 …y, sobre todo, en los contenidos que envuelven a documentos
(para anotarlos, comentarlos, matizarlos, etc.)

 Los contenidos son conjuntos de datos que conforman
paquetes de información que, al comunicarse a otros,
generan conocimiento.
 Esto significa que los contenidos han de moverse (lógica o
físicamente) desde su origen hasta sus receptores:
 El número de mi móvil que doy de viva voz
 Una carta con una queja
 La páginaWeb de un diario electrónico
 Los contenidos se mueven… o el receptor se mueve hacia
ellos… o ambas cosas.
 En definitiva, los contenidos deben organizarse para poder ser
difundidos en tal sentido amplio bi-direccional: ser accedidos +
ser enviados.

 Se ha experimentado un cambio en la forma de navegar
de los usuarios de internet.
 Además de ser los propios usuarios los que generan gran
cantidad de contenidos, se les ha proporcionado una ingente
cantidad de herramientas para que sean ellos los que filtren en
función de la información y de los contenidos que les interesan.
 Mashups, gadgets, widgets,... sirven a los usuarios para obtener
de toda la amalgama de información de la web, aquello que les
interesa y llevárselo a su navegador, dispositivo móvil, correo
electrónico,…
 Y, sobre todo, se han acostumbrado a que la información
fluya hacia ellos, en lugar de ir a buscarla a los sitiosWeb o
sistemas que hasta ahora la proveían.

 Un periódico de un bar pasa por muchas manos y ojos, así
que la información se propaga y la fuente (el papel
doblado) permanece.
 Las circulares de CEBEK propagan información de
diferentes tipos… y posibilitan profundizar en ella
(llamando o mandando un e-mail a una determinada
persona). Muchos receptores guardan estas circulares
para referencias futuras.
 Los e-mails enviados se guardan para saber qué es lo que
se propagó en su día a sus destinatarios, para así
componer mejor las actualizaciones.
 Una entrada enTwitter se propaga directamente a los
“followers”, e indirectamente a todo el mundo.Y subsiste.

 Resuena por toda laWeb la “sindicación” de
contenidos, que no es más que un anglicismo que, en
nuestro caso significa que el mismo contenido
informativo se difunde para su publicación en diferentes
medios (como ocurre, por ejemplo, con las tiras de
comics)
 …y que podríamos denominar “redifusión de contenidos”,
que en realidad se basa en que la información se pasa en
un formato tan manejable que puede ser difundido,
procesado e incluso re-difundido.
 La redifusiónWeb representa el más común de estos
esquemas de propagación de contenidos (ésta es la
expresión que más me gusta) mediante FuentesWeb.

 SegúnWikipedia…
 Una fuente web (usualmente canal web o web feed) es un
medio de redifusión de contenido web. Se utiliza para
suministrar información actualizada frecuente-mente a
sus suscriptores. En su jerga, cuando una página web
"redifunde" su contenido mediante una fuente web,
los internautas pueden "suscribirse" a ella para estar
informados de sus novedades. Los interesados pueden
usar un programa "agregador" para acceder a sus fuentes
suscritas desde un mismo lugar.
 Así que feed es… fuente; y Web feed es… fuenteWeb.
 …pero nosotros hablaremos de “feeds”… en general 

 Y, además, resulta que los feedsWeb obedecen
a dos formatos muy extendidos, Atom y RSS y…
 ¡Un momento, un momento! ¿Qué es esto? ¿Más
formatos? ¿Más líos?
▪ ¡No, no, no, no, no…. y no!
▪ Esto es como “por dónde cascar el huevo cocido”: el resultado final es
–prácticamente– el mismo, así que la dirección, el formato o el
método son cuestión de gusto.
 En adelante hablaremos de feeds RSS (y los herejes
que cambien el término por Atom… ¡y ya está!)
▪ Veremos, también, con todo, que los formatos son…
¡realmente simples!
▪ ¡Veamos, pues, los feeds RSS!

Para qué parecen servir… ¡y para qué sirven!
Uso típico de los feeds y Formatos
Uso práctico empresarial

Propagación mediante
Feeds RSS

 El RSS es uno de los formatos más sencillos de intercambio de
información (de ahí sus dos primeras iniciales “Really Simple”). Sus
señas de identidad son las siguientes:
 Sencillez
▪ La generación de los feeds es muy sencilla y la interpretación de los mismos es
intuitiva. Es prácticamente el sistema más sencillo de presentación de
información formado por pares campo-valor.
 Universalidad
▪ Los feeds RSS son utilizados en multitud de aplicaciones y sitios web. Este
formato sigue ganando adeptos a pasos agigantados y se ha convertido en un
referente en los sistemas de intercambio de información digital.
 Multitud de clientes
▪ La evolución en el número de clientes que incorporan estos formatos es
frenética. Cuando hace muy poco tiempo era necesario disponer de lectores
específicos, hoy en día cualquier navegador o dispositivo es capaz de procesar
la información recibida en este formato.

 Como ya vimos, la definición/descripción de RSS resuena a técnica
(a XML y a otras cosas):
 RSS es una familia de formatos de fuentes web codificados en XML. Se
utiliza para suministrar a suscriptores
de información actualizada frecuentemente. El formato permite
distribuir contenido sin necesidad de un navegador, utilizando un
software diseñado para leer estos contenidos RSS (agregador). A pesar
de eso, es posible utilizar el mismo navegador para ver los contenidos
RSS. Las últimas versiones de los principales navegadores permiten leer
los RSS sin necesidad de software adicional. RSS es parte de la familia
de los formatos XML desarrollado específicamente para todo tipo de
sitios que se actualicen con frecuencia y por medio del cual se puede
compartir la información y usarla en otros sitios web o programas. A esto
se le conoce como redifusión web o sindicación web (una traducción
incorrecta, pero de uso muy común)
 …pero su uso es realmente simple.
 Así que prescindamos de los aspectos técnicos y vayamos al grano.

 ¿Qué son los feeds y cómo se utilizan? (según
Google)
 Un feed se compone de un resumen actualizado
periódicamente de un determinado contenido web y de los
enlaces a la versión completa del mismo. Al suscribirse al
feed de un sitio web mediante un lector de feeds, obtendrá
un resumen del contenido nuevo de dicho sitio.
▪ Importante: para suscribirse a los feeds de un sitio web, debe utilizar
un lector de feeds. Al hacer clic en el enlace de un feed RSS o Atom, su
navegador puede mostrar una página poco legible y sin formato.
▪ [ver ejemplo en Google Chrome para reflexionar sobre los navegadores]
 Material introductorio multimedia
 Vídeo RSS in plain English (subtitulado en español)
▪ Vídeo de introducción a RSS en español

NOTICIASY NOVEDADES
 Diarios
 El Correo
 Deia
 El Mundo
 El País
 Ayuntamientos
 Bilbao
 Donosti (?)
 Vitoria-Gasteiz (en proceso)
ACTUALIZACIONESVARIAS
 Comics
 Forges
 Dilbert
 Blogs
 Ricardo Devis
 Patxi López
 …y muchas más
 Música
 Nuevos productos
 ¡Avisos logísticos! 
 Etc., etc.

 Más o menos…
 Un sitioWeb construye (usualmente de forma
automática) los feeds y los deja en un directorio
 Al suscribirse a un feed dado, el lector de feeds anota
el directorio del que puede recoger los feeds… y lo
visita cada cierto tiempo (configurable)
 En cada visita compara lo que hay con lo que ya había
recogido (como en el correo electrónico), y si hay algo
nuevo… avisa.
 Para entendernos…
 En su versión más simple, una suscripción RSS
funciona como una cuenta de correo electrónico

 Como RSS es tan simple, ¿por qué no utilizarlo como
mecanismo de intercambio, conexión e integración de
cualquier servicio o aplicación software? ¿Por qué no?
 Yahoo! Pipes
 RSSBus
 Crear feeds RSS es fácil (con herramientas como
FeedforAll, por ejemplo), su lectura es inteligible, su
agregación es sencilla y su procesamiento… ¡rápido y
eficaz!
 Con todo lo anterior, hoy está aceptado que RSS es el
lubricante de las tuberías por la que discurre (toda) la
información.

 La especificación RSS 2.0 es corta y sencilla, y los ejemplos
son fácilmente comprensibles:
<rss version="2.0">
<channel>
</channel>
</rss>
 …con algunos campos “requeridos” adicionales:
<rss version="2.0">
<channel>
<title>Nombre del Canal</title>
<link>http://URLdelCanal.com/</link>
<description>RSS en la empresa y bla bla bla</description>
<item>
</item>
</channel>
</rss>

 …con más ítems:
<item>
<title>Noticias de última hora</title>
<link>http://miCanal/noticias-ultima-hora-rss.html</link>
<description>Lo último de lo último</description>
</item>
 …y con imágenes:
<channel>
<title> </title>
<link> </link>
<image>
<url>http://miCanal/imagen.gif</url>
<link>http://miCanal/explicacionImagen.php</link>
</image>
</channel>

RSS 0.90 Desarrollado por Netscape
Propósito:Construir portalesWeb de cabeceras de noticias
RSS 0.91 Desarrollado por UserLand Software
Propósito :Weblogging products & web-based writing software
RSS 1.0 Desarrollado por RSS-DEVWorking Group
Propósito: aplicaciones basadas en RDF
RSS 2.0
Desarrollado por UserLand Software
Propósito: Propagación genérica rica en meta-datos

 El problema de los feeds es que parece que son
subsidiarios respecto de contenidos que típicamente
aparecen en laWeb
 …cuando en realidad pueden generarse feeds (y propagarse y
consumirse) sin que se parta de una presentación, seaWeb o no.
 Así que se pueden (se deberían) generar feeds de…
 Cambios de estado logístico de envíos
 Nuevos productos y servicios
 Ofertas de última hora
 Notificaciones de cobros y pagos
 Convocatorias y aplazamientos de reuniones
▪ [No debe olvidarse que el correo electrónico es una de las formas de
“leer” los feeds]

 Los feeds RSS sirven para que se nos informe de una
novedad o actualización en un blog o un sitioWeb
 …pero también se utilizan (se deberían utilizar, en verdad) para
avisarnos de la creación, modificación o actualización de
contenidos de cualquier tipo.
 En el Ayuntamiento deVitoria-Gasteiz, por ejemplo, cada
cambio en un contenido municipal genera un feed RSS
que se envía a una máquina Google (comprada) y que sirve
para distribuir la información de forma sencilla
 …sin intervenciones ulteriores de técnicos informáticos
 Se propone una integración basada en tales semillas: lo
nuevo se genera, se almacena y se sirve en razón de las
cualificaciones de acceso de los usuarios [explicar… más adelante]

 Una aplicación de nóminas permite, mediante
interfaces específicos, dar de alta un trabajador,
introducir sus parámetros (salario base, familia, etc.) y
calcular su retribución.
 Pero una vez hecho esto, lo que genera es una nómina que
raramente cambiará, por lo que no es necesario acudir al
costoso (y muchas veces poco intuitivo) programa de
creación/edición para consultarla.
▪ Por eso muchas empresas convierten las nóminas a PDF para
consultarlas mejor.
 Si convertimos toda la información proveniente de
diferentes aplicativos al mismo formato… tendremos
una lingua franca sobre la que trabajar de forma muy
productiva.

 No se pretende sustituir a los programas software de
creación/edición de contenidos (como el MSWord o
Presto), ni a los sistemas de gestión de ficheros (como MS
Sharepoint o Alfresco), tan sólo se quiere separar la
creación/edición del resto de operaciones de…
 Consulta (búsquedas)
 Presentación (listados)
 Distribución (propagación)
 Versionado (log)
 Salvaguarda (backups)
 Transformación (conversiones)
 …que ahora podrán realizarse sobre un esquema común
(no sobre el “mismo” formato, sino sobre un formato
siempre comprensible [explicar, explicar])

Listado de Calendarios
En este caso, todos los títulos
de todos los actos y eventos del
Ayuntamiento deVitoria-
Gasteiz, así como sus fechas y
horas asociadas, se presentan
como resultado de una
consulta de feeds.
Los hiper-enlaces de cada acto
y evento conducen al detalle de
los mismos… en el gestor de
contenidos (esta URL está
incluida en cada feed de
calendario, pues se genera cada
vez que se crea –en el gestor de
contenidos– un acto o evento).

 Ligando la generación, y su posterior almacenamiento, de
feeds RSS a los procesos de alta, baja y modificación de
contenidos, estamos generado una secuencia de todas las
operaciones que se realizan con los contenidos de una
empresa o institución.
 Cabe notar que se debiera homogeneizar la creación de
contenidos, de forma que únicamente se puedan crear
contenidos de una forma única y normalizada.
▪ …lo que no quiere decir “con los mismos programas”, sino con criterios
homogéneos.
 De esta manera, recabando la información necesaria,
estamos creando un registro disponible para su posterior
estudio, análisis, evaluación y control que será fiel reflejo
de cualquier tipo de actividad relacionada con la
generación de contenidos.

 Todas las susceptibilidades derivadas del miedo a
dejar que cualquier persona dentro de la institución
pueda generar/modificar/eliminar contenidos quedan
eliminadas de golpe, pues se dispondrá de un
mecanismo eficaz para la auditoría de operaciones en
caso de que fuera necesario.
 Y tal mecanismo no dependerá de la herramienta utilizada
(como MS Sharepoint, Alfresco, Interwoven, etc., que
incorporan el trato de versiones)
▪ …sino que más bien “colaborará” con ellas.
 El acceso a tal registro puede ser finamente
granulado, en razón de las necesidades de la empresa.

 Un log secuencial, con los datos de las operaciones realizadas por
un usuario, la fecha en las que las llevó a cabo y todos los datos
relacionados con el contenido posibilitan dar a los usuarios
libertad para operar, evitar mecanismos de control que
compliquen la interacción (control de usuarios, evaluación de
permisos, restricción de accesos,…).
 Es posible dar libertad total de acción a los usuarios, lo cual refuerza la
percepción de confianza que la institución les otorga. Simplemente
bastará con advertir que todo lo relativo a la generación de contenidos
queda registrado.
▪ Se colman así las necesidades de control ante hechos maliciosos.
 Este log puede servir también para estudios estadísticos sobre el
trabajo de generación, edición de contenidos. Conociendo la
estructura en formato RSS es muy sencillo conformar procesos de
explotación de los datos, en función de los indicadores que se
quieran recoger.

 En lo que a la difusión de la información se refiere, el usuario, cliente
o proveedor o empleado, debería tener la misma posibilidad de
suscribirse a la actualización de un canal o tipo de contenido (lo que
incluye páginasWeb, artículos, y todo tipo de material).
 Accederá al contenido que le resulte de interés y determinará que un
contenido es importante para él.
 La empresa le proporcionará medios para que, una vez explicitado el interés
en conocer los cambios en ese contenido por parte del ciudadano, cuando
éstos se produzcan comunicárselo.
 La opción básica para satisfacer esta necesidad, es la suscripción al
contenido; pero al contenido, no necesariamente sólo a la página
web o a una parte de ésta.
 Un contenido puede estar referenciado en varios lugares, pero su esencia
reside en el propio contenido, las modificaciones en el resto de la página web
que la contiene casi con total seguridad no serán relevantes.

Ayuntamiento de
Vitoria-Gasteiz
Existen multitud de ejemplos
de uso de RSS en la industria,
pero en esta sesión nos
centraremos en un ejemplo
cercano en el que los feeds
constituyen el alma y pivote de
todos los sistemas de
información de una gran
organización: el Ayuntamiento
deVitoria-Gasteiz .

 Objetivo: definir la información (XML) que va desde el
gestor de contenidos y desde el gestor de ficheros al GSA.
 Dado que el rastreador es incapaz de indexar
automáticamente los contenidos almacenados en el
Gestor Documental con sus respectivos metadatos, surge
la necesidad de alimentar mediante feeds la máquina de
Google.
 Cada vez que un contenido sea dado de alta, modificado o
eliminado hay que indicárselo al indexador.
 Para el modelo de alimentación, Google dispone de dos
modos distintos de inserción, la indexación directa del
contenido insertado en el propio XML o la indexación de la
URL del archivo a indexar. En ambos modos se generará
un XML en el que irán los metadatos.

 La preferencia a la hora de indexar es la de utilizar el
método de alimentación por URL, pero dado que
existen contenidos en el Gestor Documental que no
poseen “elementos” directamente indexables por
GSA, se crea la necesidad de utilización del método de
la alimentación directa del contenido.
 Se plantea la cuestión de la indexación de los
contenidos referenciados desde los propios
contenidos alimentados por URL y por contenido.
 Google confirma que utiliza el Crawler para indexar las
referencias (los enlaces y los documentos adjuntos) de un
documento alimentado por URL o por contenido.

 Por cada tipo de contenido se tendrán que definir el
método de alimentación (URL o contenido), los metadatos
a indexar, el contenido a indexar, el UID, las referencias a
contenedores padre o contenidos hijo y los datos, la forma
y las referencias que serán presentados en los resultados.
 Se plantea el lugar por el que alimentar al GSA respecto a
varios metadatos por los que el usuario podrá buscar, es
decir, si una categoría por ejemplo se deberá incluir en la
etiqueta <content> para que aparezca en las búsquedas de
los usuarios o ya se realiza la búsqueda en los metadatos.
 Se requiere la posibilidad de la devolución de metadatos
en los resultados para un posible tratamiento posterior de
los datos devueltos.

 Analizaremos la estructura de los XML Feeds a fin de
crear un documento básico y genérico para los
contenidos del Gestor Documental, que servirá de
base para la definición de los feeds por cada tipo de
contenido.
 En el XML se incluirá la URL de la página estática
HTML –en nuestro caso todos los contenidos la
poseen– o la información textual del documento y los
datos comunes a todos los tipos que puedan utilizarse
en las búsquedas como metadatos.
 Posteriormente y por cada tipo de contenido se estudiará
si es necesario incluir más información.

 La información sobre la que Google realizará las
búsquedas, es decir, con la que comparará los
términos de búsquedas, es la introducida en la
etiqueta <content> del XML.
 En un principio se introducirán en ella los
siguientes datos del contenido (aunque se
añadirán los datos necesarios específicos de
cada contenido):
 Título
 Descripción
 Catalogación y Ejes.

 Los metadatos, además de indexarse, facilitarán
la precisión de las búsquedas, permitiendo filtrar
por ellos, además de permitir mostrar
información parcial, por ejemplo el título.
 Algunos serán utilizados para la búsqueda desde
un primer momento y otros se incluirán con el
fin de estar abiertos a futuras condiciones de
búsqueda.
 Los metadatos comunes se detallan a
continuación.

 Visibilidad, para controlar la privacidad de los
contenidos de intranet en las búsquedas
públicas.
 Fechas de publicación y fin de vigor (incluyen
hora). Se hacen imprescindibles para buscar
únicamente entre contenidos que estén en vigor.
 UID
 Idioma
 Tipo de contenido, que facilitará el filtrado de
contenidos por su tipología.
 Usuario creador

 Usuario última modificación
 Fecha y hora de creación
 Fecha y hora de última modificación Para
facilitar la utilización de las fechas en las
búsquedas, se almacenarán en formato
numérico (en milisegundos), de tal forma que el
día y la hora no estén en campos separados.
 Localización
 Catalogación y Ejes. Por lo general, un término
de búsqueda se contrasta, además de con la
información textual del contenido, con estos dos
campos.

 Para mostrar información en los resultados de la
búsqueda de la web los contenidos mínimos serían:
 Visibilidad (visibilidad).
 URL (URL)
 UID (uid) , si es necesario para los contenidos de la
aplicación
 Idioma del contenido (idioma)
 Tipo de contenido (tipo)
 Título (titulo)
 Descripción (descripcion)
 Vigencia (vigente)

 Pasamos a definir el XML Feed básico. Hay que
especificar que es un url feed.
 Para ello indicaremos que el datasource es “IB021”, es
decir, que la fuente de la información es la aplicación de
gestión de contenidos y en el XML se va a incluir la URL del
contenido.
 En un XML Feed se pueden incluir varios contenidos,
que se identificarán por su URL (que deberá ser única),
pero para la alimentación de contenidos del Gestor
Documental no hará falta ya que se creará un xml
cada vez que se guarden los cambios de un contenido
(o las acciones que se crean convenientes).

<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" "">
<gsafeed>
<header>
<datasource>sample</datasource>
<feedtype>metadata-and-url</feedtype>
</header>
<group>
<record url="http://www.corp.enterprise.com/hello01" mimetype="text/plain"
last-modified="Tue, 15 Nov 1994 12:45:26 GMT">
<metadata>
<meta name="author" content="Jones"/>
<meta name="project" content="hello01"/>
<meta name="department" content="engineering"/>
</metadata>
</record>
</group>
</gsafeed>

 En un content feed se pueden incluir sólo los
cambios de un contenido, haciendo que éste se
actualice de forma incremental, o el contenido
completo (tipo full), que sustituirá a la anterior
versión si es que éste contenido ya estaba
indexado por Google.
 Nuestra propuesta de éste documento es que los
feeds sean completos.
 Inicialmente se va usar el feed de URL ya que
Google rastrea en la URL para indexar todos los
contenidos que posee.

 Hay que tener en cuenta si la url del contenido
contiene la parte superior y lateral (cabecera y menú)
ya que en ellas se encuentran links que no se desean
indexar. Por este motivo, lo mejor podría ser modificar
los feed para que sean de tipo contenido en lugar de
url.
 Para esto habrá que tener en cuenta que en la parte del
content habrá que añadir el contenido de los documentos
adjuntos y los links a las urls referenciadas que en principio
se obtendrían del campo con_xml_cntnd, ya que se
supone se guardan ahí y en caso de que no se encuentren
ahí, se recogerían mediante la funcionalidad existente en
el gestor de contenidos de extractor de texto.

<gsafeed>
<header>
<datasource>ib021</datasource>
<feedtype>incremental</feedtype>
</header>
<group>
<record
url="http://dwww.amvisa.org/ib021/was/contenidosEditoriales.do?accion=d
etalle&uid=_71824d8_11cbc00cda5__7fba&idiomaContenido=C"
mimetype="text/html" last-modified="Fri, 03 Oct 2008 00:55:35 GMT">
<metadata>
<meta name="tipo" content="Contenido editorial"/>
<meta name="URL"
content="http://dwww.amvisa.org/ib021/was/contenidosEditoriales.do?accion=d
etalle&uid=_71824d8_11cbc00cda5__7fba&idiomaContenido=C"/>

_ < gsafeed >
_ < header >
< datasource > ib021 </ datasource >
< feedtype >incremental</ feedtype >
</ header >
_ < group >
_ < record url = "http://pintra.vitoria-gasteiz.org/ib021/was/detalleCalendarios.do?accion=detalle&
clave=346&idiomaContenedor=I&idioma=I" mimetype = "text/html" last-modified = "Wed, 28 Oct 2009
00:00:00GMT" >
_ < metadata >
< meta name = "tipo" content = "calendario" />
< meta name = "titulo" content = "Exposiciones Periscopio 2009" />
< meta name = "descripcion" content = "Exposiciones del Festival Internacional de
fotoperiodismo Periscopio 2009" />
< meta name = "idioma" content = "I" />
< meta name = "calendarioID" content = "346" />
< meta name = "visibilidad" content = "internet" />
< meta name = "vigente" content = "SI" />
< meta name = "claveArea" content = "39" />
< meta name = "fa" content = "2009-10-28 120000" />
</ metadata >
< content > Exposiciones Periscopio 2009 </ content >
</ record >
</ group >
</ gsafeed >

package we001.business.google.persistence;
import we001.business.google.CategoriaElemetosValueObject;
import we001.business.google.GoogleValueObject;
import we001.business.google.TituloUrlValueObject;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Date;
import java.util.Dictionary;
import java.util.Hashtable;
import java.util.List;
import java.util.Properties;
import java.util.StringTokenizer;
import java.util.GregorianCalendar;
import java.util.Vector;
import avg.gsa.api.GsaClientAVG;
import we001.common.service.config.Configuracion;
import we001.common.util.*;
import ib021.business.area.AreaValueObject;
import ib021.business.asunto.LineaPorAsuntoValueObject;
import ib021.business.asunto.persistence.AsuntoManager;
import ib021.business.contenido.ReferenciaValueObject;
import ib021.common.service.config.Constantes;
import ib021.common.service.util.ContenidosEstaticosUtils;
import ib021.common.service.util.FechasHoras;
import ib021.common.service.util.Utils;
import net.sf.gsaapi.GSAClient;
import net.sf.gsaapi.GSAKeymatch;
import net.sf.gsaapi.GSAQuery;
import net.sf.gsaapi.GSAResponse;
import net.sf.gsaapi.GSAResult;
import net.sf.gsaapi.constants.Filter;

 Existen multitud de herramientas RSS, como…
 Lectores de Feeds RSS paraWindows, Linux y Mac.
 Add-ons RSS para navegadoresWeb
 Lectores RSS on-line (y más)
 Enrutadores RSS para e-mail
 …y también extractores de feeds de páginasWeb que no los
generan, como…
 FeedYes
 Page2RSS
 Por último, cabe destacar algunos servidores y brokers de feeds:
 RSSBus
 Yahoo! Pipes
 Attensa StreamServer
 NewsGator

 Apatar es un entorno open-source de integración de datos (sin IDE
Web), con conectores a varias bases de datos y a CRMs
(Salesforce, SugarCRM, etc.).
 BEA’s Aqualogic Pages es un producto comercial completo
(montado sobre la infraestructura de BEA) para operar
gráficamente con mashups.
 Dapper es un productoWeb 100%, con asistentes que pueden
manejar contenidos XML, RSS, Google Gadget, Netvibes,
iCalendar y más.
 Applibase’s DataMashups es uno de los constructores actuales de
mashups más sofisticados y completos, con soporte directo para
mySQL y con muchísimos ejemplos de remezclas (mashup
examples gallery).
 Denodo’s product suite puede combinar datos de laWeb, Intranet,
documentos electrónicos, datos no estructurados, bases de datos,
datawarehouses, repositorios XML, SAP, Siebel, e-mail, etc.

 Extensio está basado en el integrador SOA Symphony, y puede
combinar datos de teléfonos móviles, Excel, widgetsWeb, bases
de datos relacionales, sistemas ERP y CRM y muchos más. Soporta
la creación simple de widgets personalizables (widget gallery).
 JackBe’s Presto es una buena solución corporativa, montada bien
sobre un IDE Eclipse, bien con sus propias interfaces de uso
sencillo.
 Kapow es un producto comercial con su versión open
(OpenKapow), con buenas capacidades de gestión de errores en la
adquisición de datos.
 Proto es un producto comercial, gratuito para uso personal
(ejemplos: en su application gallery.
 WSO2 Mashup Server es un servicio open-source de mezcla de
datos y remezcla de servicios para convertirlos en mejores
consumibles.

 IBM’s QEDWiki es una de las plataformas de mashup más
impresionantes del mercado, basada en el modelo Wiki (cada
cambio en cada página de código se versiona como en un Wiki ).
 RSSBus tiene un concepto simple, parecido al deYahoo! Pipes:
transforma cualquier clase de datos en feeds RSS que, así, pueden
ser consumidos por cualquier aplicación que pueda procesar RSS.
 SnapLogic es open-source de calidad, con un IDE gráfico avanzado
y soporte para JSON y RSS.
 SOA Express, de StrikeIron, es una herramienta basada en… ¡MS
Excel! Las hojas de cálculo sirven de soporte para la integración .
 Teqlo aporta un enfoque diferente, cercano a los presupuestos de
laWeb 3.0: soporte a la construcción guiada de mashups, con
widgets y una magnífica interfaz gráfica.

UnaVisión Convergente
Reflexión Ponente/Asistentes
Debate Final

Difusión e integración de contenidos mediante feeds

Difusión e integración de contenidos mediante feeds

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (18)

Andere mochten auch

Andere mochten auch (8)

Ähnlich wie Difusión e integración de contenidos mediante feeds

Ähnlich wie Difusión e integración de contenidos mediante feeds (20)

Mehr von Ricardo Devis

Mehr von Ricardo Devis (13)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

Difusión e integración de contenidos mediante feeds