1. ¿Qué dicen de mí mis documentos?
José María Alonso Cebrián, Informática 64, chema@informatica64.com
Enrique Rando González, Junta de Andalucía en Málaga, enrique.rando@juntadeandalucia.es
Francisco Oca, Informática 64, froca@informatica64.com
Antonio Guzmán, Universidad Rey Juan Carlos, Antonio.guzman@urjc.es
RESUMEN
Hoy en día, gracias a Internet y a las intranets corporativas, los documentos en formato electrónico
pueden ser publicados o comunicados de forma sencilla.
Pero, antes de compartir o publicar documentos electrónicos, es necesario tener en consideración toda la
información que éstos contienen y las posibles implicaciones que pudiera tener su conocimiento por parte
de terceros. Aunque tal afirmación pudiera parecer trivial, un elevado número de organizaciones realiza
este control de forma inadecuada.
La causa del problema radica en el contenido adicional de los documentos: los metadatos, la información
oculta y los contenidos no deseados o informaciones perdidas. Los dos primeros son incorporados por la
mayor parte de las aplicaciones utilizadas para la creación o manipulación de los ficheros; los últimos son
introducidos por los usuarios y mantenidos posteriormente, bien por descuido, bien de forma
malintencionada.
La consecuencia es que quedan comprometidas tanto la seguridad de los sistemas de información como la
imagen corporativa de la organización.
Por otro lado, toda esta información adicional no tiene necesariamente que ser perjudicial. Los metadatos
son el fundamento de la Web Semántica y de muchos Sistemas Documentales. Describen y aportan valor
a los documentos. Son, por tanto, un activo más que las organizaciones deben proteger y administrar.
El/la presente artículo/ponencia muestra los riesgos e inconvenientes que conlleva la falta de control
sobre los contenidos adicionales de los documentos. Se proporcionan ejemplos de cómo gestionarlos,
cómo protegerlos y cómo limpiar correctamente los documentos antes de hacerlos públicos.
2. CONTENIDOS ADICIONALES Una revisión no rigurosa puede dejar pasar
encabezados y pies de páginas con datos no
Un documento publicado contiene todos aquellos apropiados, textos o elementos invisibles por ser
elementos que sus autores incluyeron del mismo color que el fondo, objetos ocultos
voluntariamente en él, y que pueden ser de por otros que se les superponen, párrafos cortos
diversa naturaleza: texto, imágenes, audio, video, con datos personales, etc…
etc… Pero junto con el propio documento se
almacena otra información que quizá el autor no A modo de ejemplo, obsérvese el siguiente
desea, no ha valorado en su justa medida el documento PDF:
impacto de la publicación de la misma o
simplemente que ha sido incluida por descuido.
Estos contenidos adicionales pueden haber sido
incluidos tanto por los propios autores,
voluntaria o involuntariamente, como de forma
automática por las aplicaciones utilizadas para la
creación y edición de los documentos.
Algunos de esos contenidos adicionales pueden
aportar valor al documento y facilitar su
localización o gestión si han sido debidamente Imagen 1: Documento PDF con información oculta
tratados. Este es el caso de los metadatos. Estos
son un conjunto de datos descriptivos que Los cuadros de color rojo ocultan parte del texto,
aportan meta-información sobre el documento y ya que los autores consideraron que no era
que suelen almacenarse junto con él. Son oportuno mostrarlo. Sin embargo, un
metadatos, por ejemplo, el nombre o procedimiento tan simple como seleccionar todo
identificador del autor, el título, el número de el texto, usar la opción “Copiar” del menú
páginas o la fecha de creación. “Edición” y pegar en una ventana de Bloc de
Notas, u otro programa similar, permite desvelar
Los metadatos han sido utilizados durante años el contenido que antes quedaba oculto.
en los sistemas de Gestión Documental y son
parte fundamental de la base tecnológica de la
llamada Web Semántica. Gracias a ellos, las
aplicaciones futuras podrán incluir nuevas
funcionalidades y trabajar de forma automática y
autónoma con documentos publicados en
Internet.
Sin embargo, son pocas las organizaciones que
gestionan apropiadamente los contenidos
adicionales de los documentos. Y con ello no
sólo desaprovechan el activo que éstos suponen
sino que también pueden poner en compromiso Imagen 2: Texto oculto en documento PDF
la seguridad de sus sistemas de información y la
imagen corporativa. Muchos documentos son Por otro lado, no sólo los autores introducen
publicados o enviados a través de sistemas de información adicional en el documento. Las
mensajería electrónica, sin haber realizado un aplicaciones incorporan de forma automática
control previo de sus contenidos adicionales y de otros datos que pueden tener un carácter
las repercusiones que su conocimiento por parte operacional o descriptivo.
de terceros pudiera tener.
Los datos de carácter operacional son
Para aportar soluciones que eviten o mitiguen introducidos por las aplicaciones de forma
este problema se deben analizar las causas que automática y no suelen ser visibles para los
originan las publicaciones incontroladas de usuarios. A esta información adicional se le
información. denomina “información oculta”. Las aplicaciones
los utilizan como ayuda para procesar de forma
Por otro lado, los autores pueden incluir correcta y eficiente la los documentos.
elementos inadecuados en el documento que
terminen pasando inadvertidos a los revisores y En resumen, un documento publicado puede
siendo publicados o comunicados. Se habla conllevar tres tipos de contenidos adicionales:
entonces de datos perdidos.
3. Metadatos, Información Perdida y/o Información es decir, un conjunto de archivos en formato
Oculta. XML comprimidos.
Independientemente de la causa que los pueda • PDF: Estándar abierto de ISO utilizado
originar, los contenidos adicionales no masivamente en Internet. PDF (Portable
gestionados suponen un riesgo para las Document Format) [5] es un formato de
organizaciones. documento Postscript en el que la información se
estructura como una jerarquía de objetos
FORMATOS DE FICHERO relacionados. Los metadatos pueden encontrarse,
dentro de esa jerarquía, en diversas formas tales
En los apartados siguientes se van a mostrar como elementos del Diccionario de Información
ejemplos de problemas de seguridad del Documento o en objetos con contenido XMP
relacionados con varios de los tipos de archivos (eXtensible Metadata Platform) [6] (RDF
más comunes en Internet. Con ello no se quiere (Resource Description Framework) [7] / XML).
indicar que otros formatos no presenten XMP es un formato de almacenamiento de
problemas similares. metadatos utilizado por muchos formatos de
archivos tales como los documentos Postscript,
Para este estudio se han utilizado los siguientes ficheros EPS (Encapsulated PostScript) [8] o
formatos: archivos gráficos como PNG (Portable Network
Graphics) [9].
• ODF: El formato ODF (Open Document
Format) [1] es un estándar abierto aprobado por RIESGOS ASOCIADOS A LOS
la ISO (International Standard Organization) [2] CONTENIDOS ADICIONALES NO
que está ampliamente documentado. Es utilizado, CONTROLADOS
entre otros, por el paquete ofimático
OpenOffice.org y todas las suites ofimáticas La pregunta es ¿y qué información puede
derivadas. La característica principal de este encontrarse dentro de esos formatos de ficheros
formato de archivo es el almacenamiento de la que sea un riesgo para la seguridad de la
información en ficheros XML (eXtensible organización? En los siguientes apartados
Markup Language) [3] comprimidos. Entre los podemos ver la respuesta.
distintos ficheros XML que almacenan la
estructura y datos del documento son importantes Datos identificativos de personas y equipos
para este estudio los siguientes:
Buena parte de las aplicaciones usadas para la
◦ meta.xml: Archivo que almacena los edición de documentos almacenan datos
metadatos asociados al documento. personales relativos al usuario. Por ejemplo, la
primera vez que un usuario inicia una aplicación
◦ settings.xml: Archivo que almacenad de Microsoft Office aparece una ventana similar
los ajustes del documento. Entre ellos a la siguiente:
pueden figurar datos perdidos, como
nombres de impresora, datos de conexión a
bases de datos, etc…
◦ content.xml: Este archivo almacena el
contenido principal del documento en sí.
• MS Office: Los formatos de documento
utilizados en la suite ofimática Microsoft ffice se
convirtieron en un estándar de facto. Hasta la
versión Office 2003 incluida, los documentos se Imagen 3: Información de usuario en MS Office
guardaban usando un formato de
almacenamiento estructurado en ficheros La información que aparece por defecto en el
binarios. El formato de estos ficheros binarios campo “Nombre” es la cuenta del usuario actual.
fue liberado en febrero de 2008. Sin embargo, a Desafortunadamente, en muchas ocasiones este
partir de la versión de la suite de Microsoft hecho pasa desapercibido o no se reconoce la
Office 2007, el formato de archivo fue cambiado importancia que tiene.
y desde entonces se utiliza OOXML (Office
Open XML) [4], un formato de documento OpenOffice presenta una pantalla similar:
abierto aprobado por ISO como ISO 29.500 y
que mantiene una estructura similar a la de ODF,
4. Esta filtración involuntaria de datos se puede
producir también con otros tipos de documentos.
Por ejemplo, en este fichero PDF ha quedado
registrada la cuenta de usuario de su autor:
Imagen 4: Información de usuario en OpenOffice Imagen 7: Información de autor en fichero PDF
Los datos que se incluyan en esta pantallas serán Otros datos que pueden resultar especialmente
recordadas por las aplicaciones y podrán ser peligrosos son los relativos a impresoras. En
incluidos en los documentos creados mediante algunos casos, la información se limita, como
ellas. En el caso de Microsoft Word, se revelaría mucho, a poco más que una marca y un modelo.
la cuenta de acceso al sistema del autor: Es el caso de la figura siguiente, que muestra
parte del contenido del settings.xml de un
documento de OpenOffice:
…
<config:config-item
config:name="PrinterName"
config:type="string">EPSON Stylus DX4000
Series</config:config-item>
…
Imagen 8: Información de impresora en fichero ODF.
Imagen 5: Información resumen en MS Word
El conocimiento de la marca y el modelo de la
Por otro lado, analizando el fichero meta.xml de impresora ayudar a determinar desde que equipo
un documento de OpenOffice, puede observarse en concreto se editó el documento. Además,
cómo aparecen detalles relativos al programa cuando se trata de una impresora compartida por
usado para la creación del documento, la versión un equipo, los datos pueden aparecer en formato
del mismo, el Sistema Operativo utilizado y el UNC (Universal Naming Convention) [10],
nombre propio del autor: revelando tanto el nombre del servidor como el
del recurso compartido.
<?xml version="1.0" encoding="UTF-8" ?>
<office:document-meta …
xmlns:office="urn:oasis:names:tc:opendocu <config:config-item
ment:xmlns:office:1.0" config:name="PrinterName"
xmlns:xlink="http://www.w3.org/1999/xlink" config:type="string">servidorHP 2000C
xmlns:dc="http://purl.org/dc/elements/1.1/" </config:config-item>
xmlns:meta="urn:oasis:names:tc:opendocum …
ent:xmlns:meta:1.0"
xmlns:ooo="http://openoffice.org/2004/office"
office:version="1.0"> Imagen 9: Información de impresora en formato UNC
<office:meta>
<meta:generator>OpenOffice.org/2.3$Win32 O, en ocasiones, direcciones IP de equipos:
OpenOffice.org_project/680m5$Build-
9221</meta:generator>
<meta:initial-creator>MiNombre …
MiApellido</meta:initial-creator>
<config:config-item
<meta:creation-date>2008-08- config:name="PrinterName"
11T11:33:23</meta:creation-date> config:type="string">10.177.1.126EPSON
EPL-6200 Advanced</config:config-item>
Imagen 6: Información en fichero meta.xml
Imagen 10: Información de impresora con IP
5. Informaciones similares pueden obtenerse
también de algunos documentos de Microsoft
Word.
Imagen 13: Ruta en perfil de usuario en MS Word
Puede deducirse fácilmente que, en estos
ejemplos, ambos documentos fueron editados por
usuarios cuyas cuentas son “mark” y “usuario97”
respectivamente.
Imagen 11: Información de impresora con IP En el caso de sistemas Linux/Unix pueden
apreciarse situaciones similares cuando la ruta
En este caso la impresora aparece como incluye el directorio /home:
servidorAGFA-ProSet 9400SF, en el que se
proporciona información sobre la marca y …
modelo, el nombre del servidor que la comparte <meta:template xlink:type="simple"
y del recurso compartido asociado. Esta xlink:actuate="onRequest"
información permite inferir que el usuario que ha xlink:role="template"
trabajado en este documento tiene permisos en la xlink:href="/home/jkl/.openoffice.org2/user/te
lista de control de acceso al recurso dónde es mplate/NewTemplate.ott"
compartida esta impresora. xlink:title="NuevaPlantilla" meta:date="2008-
06-30T09:13:20" />
<meta:user-defined meta:name="Info 1" />
Muchas aplicaciones almacenan también rutas de …
archivo correspondientes a plantillas, ficheros
incrustados o vinculados e imágenes insertadas.
Estas rutas pueden llegar a ser tan reveladoras, o Imagen 14: Ruta a directorio HOME personal
incluso más, que los nombres de las impresoras.
En ocasiones aparecen en formato UNC, Los documentos PDF tampoco son inmunes a
identificando máquinas servidoras y recursos este problema. En ocasiones, durante su
compartidos. Otras veces, en sistemas Windows, creación, se incorporan a alguno de los campos
tomarán la forma UNIDAD:ruta, pudiendo de metadatos la ruta del documento original:
ofrecer información sobre unidades mapeadas.
En ocasiones rutas incluyen cuentas de usuarios,
como en el siguiente documento de OpenOffice:
…
<meta:template xlink:type="simple"
xlink:actuate="onRequest"
xlink:href="/C:/Documents%20and%20Setting
s/mark/Datos%20de%20programa/OpenOffice.
org2/user/template/NuevaPlantilla.ott" Imagen 15: Información en propiedades PDF
xlink:title="NuevaPlantilla" meta:date="2008-
08-12T10:02:14" /> Nótese que en el campo “Title” aparece una ruta
<meta:user-defined meta:name="Info 1" /> de archivo en formato UNC y que el equipo que
… comparte el recurso aparece identificado por su
dirección IP. Por otro lado, en el campo “Autor”
Imagen 12: Ruta en perfil de usuario en ODF aparece lo que podría ser una cuenta de usuario
(mark). De todo lo anterior puede deducirse que
O en este otro ejemplo, en un documento de el usuario “mark” tiene, al menos, permisos de
Microsoft Word: lectura sobre el recurso compartido.
6. Este ejemplo visto con el documento PDF que Format : application/pdf
Modify Date : 2004:07:08 11:47:19+02:00
puede parecer algo extraño es, por el contrario, Create Date : 2004:07:08 11:44:32+02:00
una situación muy común cuando los Title : Listado de asistentes
Creator : Acrobat PDFMaker 6.0 for Word
documentos son generados con impresoras Author : LBRIDE
virtuales PDF. Producer : Acrobat Distiller 6.0 (Windows)
Company : --
Ad Hoc Review Cycle ID : 1888595674
Otra característica, como el historial de Email Subject : confirmacion
revisiones de un documento, puede proporcionar Author Email : mark23@tests.edu
Author Email Display Name : Accountings
una combinación de cuentas de usuario y rutas de Previous Ad Hoc Review Cycle ID : 2062293108
archivos. La siguiente captura muestra metadatos Source Modified : D:20040708094338
e información oculta extraída de un documento
de Microsoft Word mediante la herramienta Imagen 18: Información extraída de documento PDF
Extract de Libextractor[11]:
Nótese como la información revelada no se
limita a la dirección de correo electrónico,
apareciendo datos sobre el software utilizado, el
sistema operativo o la cuenta del usuario.
Bases de datos y combinaciones de
correspondencia
No es habitual que se publiquen en Internet
modelos utilizados para la combinación de
Imagen 16: Historial de Revisiones en MS Word correspondencia, pero sí hay ocasiones en las que
se proporciona una copia de un modelo a alguien
Entre las propiedades del documento, ajeno a la organización con necesidades
introducidas durante la instalación o parecidas por el simple y humano deseo de
configuración de la herramienta, también pueden ayudar o enseñar.
encontrarse direcciones de correo electrónico y
otros datos personales. En estas situaciones suele tenerse en cuenta que
lo que se entrega es sólo el modelo y que, en
ningún caso se entregan los datos utilizados en la
combinación. Sin embargo, el modelo es por sí
solo bastante revelador, ya que incluye
información descriptiva de la base de datos de la
que extrae la información para rellenar sus
campos.
Imagen 17: Información personal
O en un documento PDF, del cual se extraen los
datos mediante Exiftool:
ExifTool Version Num : 7.00
File Name : listado.pdf
Directory :. Imagen 19: Información de base de datos
File Size : 481 kB
File Modification Date : 2007:04:09 15:45:45
File Type : PDF
En la Imagen 19, correspondiente a un modelo
MIME Type : application/pdf creado con Microsoft Word, el texto
Warning : Install Compress::Zlib to decode seleccionado revela prácticamente todo lo
filtered streams
Encryption : Standard v2.3 necesario para acceder con éxito a la base de
Page Count :8 datos:
Creator Tool : Acrobat PDFMaker 6.0 for Word
Metadata Date : 2004:07:08 11:47:19+02:00
Document ID : uuid:0ae24002-681f-48c4-bb18-
0dc54d8eb14e
7. SELECT pruebas_0.apellidos, adicionales que posteriormente puedan ser
pruebas_0.nombre, pruebas_0.tlf FROM relacionados con los obtenidos del documento
pruebasmetadata.pruebas pruebas_0 inicial.
DATABASE=pruebasmetadata
DRIVER={MySQL ODBC 3.51 Driver}
OPTION=0 Así, si un documento contiene una fotografía
PWD=PassMETADATA incrustada, un análisis de los metadatos de ésta,
PORT=0 SERVER=servidor normalmente en formato EXIF [13], podría
UID=UsuarioMETADATA arrojar datos tan llamativos como la fecha y la
hora de cuando fue tomada o la marca y el
De igual forma, en un modelo creado con modelo de cámara o teléfono móvil usado,
OpenOffice se revela información sensible contribuyendo a crear un perfil de la
relativa a la Base de Datos, como el nombre de la organización y/o el autor del documento.
instancia, o los datos relativos a tablas y
columnas: Metadatos y Google
… Los metadatos no nacieron como algo nocivo,
<text:p text:style-name="Standard"> sino como algo positivo que pudiera ayudar a
<text:database-display text:table- conocer mejor la información almacenada en un
name="Contactos" text:table-type="table" documento. Por ellos, su uso en los buscadores
text:column-name="nombre" text:database- de información en Internet, como Google, hacen
name="Referencias"><nombre></text:database-
display>
uso de ellos a la hora de indexar información.
</text:p> Como respuesta a una búsqueda de usuario,
<text:p text:style-name="Standard"> Google proporciona una serie de resultados, cada
<text:database-display text:table- uno de los cuales comienza con un encabezado o
name="Contactos" text:table-type="table" título. El valor de este encabezado suele
text:column-name="direccion" text:database- obtenerse del campo de Título “Title” o similar
name="Referencias"><direccion></text:databas de los metadatos del documento.
e-display>
</text:p>
<text:p text:style-name="Standard">
<text:database-display text:table-
name="Contactos" text:table-type="table"
text:column-name="clave" text:database-
name="Referencias"><clave></text:database-
display>
…
Imagen 20: Información de base de datos
Imagen 21: Resultados usando el campo title
Esta información podría ser aprovechada para
realizar ataques directos a la base de datos o para Sin embargo, hay ocasiones, bien porque se usen
ataques de tipo indirecto, como pudieran ser los programas que dejan vacío dicho campo, bien
de SQL Injection[12]. porque los usuarios hayan eliminado su
contenido, en las que no existe un campo de
Recursividad metadatos de los que se pueda inferir el
encabezado del resultado. También puede
Una de las características más poderosas y suceder que la información contenida en ese
enriquecedoras de los documentos ofimáticos es campo sea considerada como poco relevante para
su capacidad de contener ficheros incrustados de el análisis automático realizado por Google. En
diverso tipo como por ejemplo, otros esos casos Google intenta determinar valores
documentos ofimáticos, ficheros de audio o alternativos basándose en los encabezados y los
imágenes. Estos ficheros incrustados pueden pies de los documentos, en las primeras líneas de
incluir a su vez metadatos, datos ocultos e texto del documento o en elementos similares.
informaciones perdidas… y más ficheros
incrustados. Asimismo, algunos formatos y Esta forma de trabajar de Google conlleva que lo
programas incorporan opciones como la de que antes eran datos perdidos en un documento
recordar versiones antiguas del documento. se conviertan en metadatos, no almacenados
junto con el documento, pero fácilmente
Es posible extraer también información de estos localizables mediante el buscador.
documentos incrustados mediante un proceso de
exploración recursivo que proporcione datos
8. Por ejemplo, un documento PDF con metadatos MEDIDAS PREVENTIVAS: LIMPIEZA DE
como los mostrados en la Imagen 22: DOCUMENTOS
De lo expuesto hasta ahora se deduce que la fuga
de información a través de documentos
electrónicos es un serio problema cuya
complejidad se ve incrementada por el elevado
número de formatos de ficheros y definiciones de
metadatos que hay que gestionar.
Por otro lado, las aplicaciones de creación y
manipulación de documentos permiten visualizar
Imagen 22: Metadatos en documento PDF y editar los metadatos incorporados a cada
fichero, pero los datos ocultos suelen quedar
Cuyos encabezados y pies de página son los de la fuera del control del usuario.
Imagen 23:
Sin embargo, la mayor parte de las herramientas
actuales de limpieza de documentos eliminan o
modifican los metadatos, pero no tienen en
cuenta la información oculta.
En el caso de los documentos creados con la
suite Microsoft Office, una de las mejores
soluciones es la opción de “Inspeccionar” un
documento que incorpora la versión 2007. Esta
herramienta busca toda la información que un
documento tiene tanto en metadatos como en
información oculta y permite eliminarla,
Imagen 23: Encabezado y pie de página independientemente de la versión del formato de
archivo que se esté utilizando y de la versión de
Puede terminar indexado en Google con este Office utilizada para su creación. Además,
encabezado: realiza funciones similares para cualquier tipo de
formato de documento que maneje la
herramienta.
Imagen 24: Información de base de datos
Este proceso realizado por Google permitiría a
cualquier persona con conexión a Internet
obtener la cuenta de usuario utilizada por el
creador del documento sin necesidad de
descargar el documento. De hecho, como los
datos habrían sido obtenidos directamente de los
resultados de Google, la organización propietaria
del fichero no tendría noticia siquiera del acceso
a dicha información.
Por otro lado, cualquier metadato, ya sea
embebido en el documento o creado por el
buscador, que quede reflejado en los resultados Imagen 25: Información de base de datos
de una búsqueda en Google plantea un problema
añadido: Incluso si la organización detecta el Para las versiones de Microsoft Office anteriores
problema y corrige o elimina el documento, la a 2007 (versiones XP y 2003), la compañía puso
Caché del buscador puede seguir almacenando a disposición de los usuarios un plug-in con
los datos anteriores durante algún tiempo y funcionalidades similares llamado RHDTool
manteniéndolos visibles para cualquier usuario [14].
de Internet.
Otra opción es utilizar herramientas de terceros
para eliminar esta información, como por
9. ejemplo Metadata Extractor [15] o Doc Scrubber naturaleza, éstos deben ser objeto de una
[16]. Sin embargo, tras realizar múltiples cuidadosa comprobación en la que, casi
pruebas, se puede constatar que la limpieza inevitablemente, debe intervenir un revisor
realizada por estas aplicaciones no es total, y, en humano.
el caso de datos ocultos como los nombres de
impresoras, seguían almacenados en los SOLUCIONES GLOBALES
documentos tras ser limpiados.
Aplicaciones como las indicadas en el punto
Por lo que respecta a OpenOffice, el número de anterior sólo suponen una solución parcial al
herramientas disponibles es muy reducido y problema, si bien suponen una considerable
normalmente no tienen en cuenta la información mejora en el nivel de seguridad. Por ello, es
oculta. necesario definir una solución global que
abarque todos los aspectos y funcionalidades
A este respecto, cabe destacar OOMetaExtractor asociadas a los metadatos y a la información
[17], que permite extraer y eliminar metadatos e oculta.
información oculta tanto para un único
documento como para todos los que estén La solución no debe consistir en la eliminación
almacenados en una determinada carpeta o sistemática de datos, puesto que los metadatos,
directorio. Se trata de una herramienta de código debidamente gestionados, pueden ser utilizados
abierto que disponible para sistemas Microsoft por distintas aplicaciones para procesar
Windows. automáticamente los documentos. Así lo vienen
haciendo muchos sistemas de gestión
documental y, en el futuro, se prevé que sea ése
el modo de operación de la Web Semántica [19].
La información oculta, una vez bajo control,
también puede ser aprovechada de diversas
formas.
En los siguientes apartados se propone un marco
para el desarrollo de sistemas de gestión de estos
contenidos adicionales.
Políticas Corporativas sobre metadatos e
información oculta
Imagen 26: OOMetaextractor Dado por sentado que los datos adicionales
deben ser gestionados y no borrados, es
El caso de los documentos PDF es más complejo necesario disponer de reglas que permitan
si cabe. No sólo porque hay que tener en cuenta determinar si los valores contenidos en los
los distintos formatos de metadatos que puede mismos, y el uso que se hace de ellos, son
incluir, sino porque en muchas ocasiones las aceptables o no.
herramientas que dicen limpiar los metadatos en
realidad no lo hacen. En su lugar, simplemente, La comparación de los datos adicionales de cada
eliminan las referencias a los metadatos, documento con estos patrones hará posible la
dejándolos al margen de la jerarquía de objetos detección y resolución de situaciones de riesgo o
del fichero, sin eliminarlos. no deseadas.
Pruebas hechas con Adobe Acrobat indican que, A las definiciones formales de estas normas se
si se eliminan los metadatos y se guarda el les denominará en este artículo “Políticas
resultado con otro nombre de archivo, Corporativas sobre metadatos e información
desaparecen los metadatos anteriores. oculta” o, simplemente “políticas corporativas”.
En ellas se especificará la forma y los valores
Otra opción es usar el comando cat de pdftk [18], que pueden tomar los datos adicionales dentro de
que copia sólo el contenido de las páginas a otro la organización y cómo y por quién pueden ser
archivo. En este caso el problema es que también éstos manipulados.
son eliminados otros elementos del documento
como, por ejemplo, los enlaces. Estas políticas corporativas deben asegurar, al
menos, los tres objetivos principales expresados
En este análisis no se ha hecho referencia a los hasta el momento:
datos perdidos. Debido a su especial y variada
10. • El mantenimiento de la imagen corporativa: dirigirían al atacante hacia recursos falsos,
por ejemplo, especificando que el campo de monitorizados por el Sistema de Detección de
“Autor” debe contener el nombre de la Intrusos (IDS) de la organización. A la
organización. componente del sistema de seguridad de
metadatos cuya función es la definición y la
• El correcto funcionamiento del software que aplicación de las políticas relacionadas con esta
pueda utilizar los metadatos: garantizando que operativa se le llamará “Metadata Honeypot”.
ningún documento queda fuera de los flujos de
trabajo por contener metadatos u otra La imagen falsa de red que se ofrezca debe ser
información errónea. consistente y creíble, para lo cual se creará un
modelo de red que contemplará elementos como:
• La seguridad: no sólo por los problemas de
fuga de información. A medida que proliferen los • El direccionamiento IP
programas capaces de gestionar los metadatos y
la información oculta, es de esperar que surjan • La estructura de dominios y subdominios
nuevos tipos de malware que intenten manipular
estos datos con objeto de aprovechar nuevas • Las sedes, sus direcciones, etc.
vulnerabilidades o provocar fallos en las
aplicaciones corporativas. • Notación para los nombres de equipos,
elementos de la red y los usuarios
Estas políticas incluirán, entre otras cosas,
información sobre los permisos de acceso a los • Para cada equipo: nombre, dirección,
metadatos y deberán ser objeto, a su vez, de unos recursos compartidos y rutas locales.
permisos de acceso autorizado.
• Para cada usuario: nombre propio, cuenta,
Asimismo, deben dar respuesta tanto a las equipos y aplicaciones que usa, servidores y
necesidades globales de la organización como a recursos compartidos a los que accede, cuenta de
las particularidades de cada una de sus unidades. correo y otros datos de contacto.
Para ello, se propone utilizar un modelo formal
de la organización, con sus unidades y Por supuesto, el contenido y alcance particular
operaciones, basada en un directorio LDAP, u del modelo deberá adaptarse a las necesidades de
otra herramienta de similar naturaleza. cada organización. Una vez creado, deberá
crearse la infraestructura de detección de
El directorio LDAP, o el directorio que en cada intrusiones que monitorice cualquier intento de
caso se seleccione, deberá funcionar de forma acceso a la red inexistente.
distribuida y replicada entre las distintas sedes o
unidades de la organización, de forma que se El modelo así definido se integrará en las
garantice la actualización y disponibilidad de la políticas corporativas y será utilizado para
información. construir conjuntos de metadatos, datos ocultos e
informaciones perdidas, de acuerdo con los
Cada nodo del árbol de directorio tendrá distintos tipos de documentos que se utilicen en
asociado un conjunto de políticas que será el la organización, para que den soporte la imagen
resultado de la combinación de las políticas de red ficticia.
heredadas de sus nodos superiores y de las
políticas definidas expresamente para ese nodo. La generación de conjuntos de datos se podrá
realizar en tiempo real, en el momento de
Componente Metadata Honeypot asignarlos al documento, o de forma masiva,
durante la configuración y las actualizaciones del
Los datos adicionales, presentes en los sistema. Durante la manipulación, publicación,
documentos, son un vector de ataque que puede envío o compartición de los documentos se
ser aprovechado por los ciberdelincuentes para incorporará a los mismos los correspondientes
determinar una imagen de las redes internas de a conjuntos de metadatos que contemplarán, entre
la organización, y del funcionamiento de ésta, otras, las necesidades del Metadata Honeypot.
que les ayude a realizar con éxito sus actividades
ilícitas. Monitorización proactiva de las publicaciones
Ante esta situación, las organizaciones podrían Los intentos de establecer un modelo de red a
introducir metadatos modificados de forma que partir de los datos adicionales incluidos en los
proporcionen al atacante una imagen falsa de su documentos siguen unos patrones muy
red interna o su funcionamiento. Estos metadatos
11. determinados, que incluyen la descarga masiva las aplicaciones antivirus y antimalware podrían
de ficheros ofimáticos. La monitorización y hacer recomendable integrar ambos elementos en
detección de estos comportamientos sospechosos un mismo producto. De hecho, como se indicó
permitiría tomar las contramedidas oportunas, anteriormente, es muy probable que en el futuro
que podrían variar desde denegar los posteriores surjan nuevos tipos de malware orientados a la
accesos al posible atacante a, en casos de manipulación y detección de metadatos,
especial gravedad, suspender temporalmente la información oculta y datos perdidos.
publicación de documentos.
Tampoco se debe olvidar la importancia de los
Este control se complica en entornos con procesos manuales de aprobación de contenidos
recursos distribuidos. En estos casos será en los sistemas de publicación. En esta tarea, se
necesario construir una red de servidores de debe presentar a los revisores las informaciones
monitorización de accesos que repliquen entre sí adicionales que los documentos acarrean y las
las situaciones detectadas, ya sea a intervalos implicaciones que éstas pueden tener. Todo ello
regulares, bajo demanda o ante situaciones de con un lenguaje y una forma comprensibles.
alarma. Deberá garantizarse que todo servidor
web, así como cualquier otro tipo de servicio de Como regla general, no debería ser posible
publicación de contenidos, pueda comunicarse e aprobar la publicación de un documento si antes
integrarse con, al menos, uno de los servidores no se ha dado el visto bueno, de forma expresa, a
de monitorización. todos los datos adicionales asociados a él.
Protección en los procesos internos Consideraciones de funcionamiento
Las medidas de protección anteriores, aunque Existen múltiples formatos de documento. Y
necesarias, son manifiestamente insuficientes. cada uno puede almacenar uno, o incluso varios,
Un documento elaborado utilizando los medios formatos de metadatos y otras informaciones
de una organización puede salir fuera de ésta a adicionales. Sin embargo, las políticas
través de una inmensa variedad de canales no corporativas deben hacer referencia a un único
formales, tales como copias en medios extraíbles, modelo global de metadatos en la organización.
accesos ilegítimos o no autorizados, envíos por
correo electrónico, publicaciones en páginas web Esta diferencia de enfoque se puede resolver
particulares o simplemente siendo copiados mediante el uso de extensiones, que actuarían
desde una unidad de red. como intermediarios entre el sistema de
protección de datos adicionales y los documentos
Ante esta dificultad, no cabe otra solución que gestionados.
integrar las políticas corporativas en todos los
procesos de creación, manipulación, Cada extensión gestionaría uno o varios formatos
comunicación y publicación de documentos. La de documentos, bien basándose en la extensión
monitorización debe realizarse en tiempo real del fichero o en su contenido. Su principal
para asegurar, en todo momento, la idoneidad de función sería asegurar la consistencia de los
los conjuntos de datos adicionales. Todo ello, metadatos con las políticas corporativas,
incluso en el caso de que no se prevea su adaptándolas a las peculiaridades de cada
publicación o remisión. formato de documento y a los distintos tipos de
operaciones que se pueden llevar a cabo sobre
Asimismo, sería preciso disponer de la opción de los mismos.
realizar comprobaciones bajo demanda o
programadas. Para asegurar la interoperatividad entre los
diferentes sistemas de gestión de datos
Como resultado de estos análisis se podrían adicionales en los documentos y las extensiones
detectar posibles inconsistencias que, cuando escritas por terceros, deberán establecerse
fuera posible, serían corregidas de forma protocolos estándares de interacción entre
automática. En caso de que la gravedad del ambos.
problema así lo aconsejara, se producirían las
correspondientes alertas y actuaciones de CONCLUSIÓN
seguridad.
Los documentos incluyen informaciones
La monitorización deberá llevarse a cabo en adicionales que, debidamente gestionadas,
todos los equipos en los que se almacene, pueden contribuir a mejorar la seguridad, la
gestione o manipule documentos. Las similitudes imagen y el funcionamiento de las
entre este proceso y la forma en que funcionan organizaciones. Sin embargo, hasta la fecha, se
12. ha venido prestando poca atención a esta http://es.wikipedia.org/wiki/PostScript_encapsul
característica de la tecnología. El resultado es un ado
elevado riesgo de fuga de información y, en [9] PNG
ocasiones, daños causados a la imagen http://es.wikipedia.org/wiki/PNG
corporativa. [10] UNC
http://www.webopedia.com/TERM/U/UNC.html
Estos datos adicionales deben ser considerados [11] Libextractor
como un nuevo recurso que hay que proteger y http://gnunet.org/libextractor/
administrar, puesto que se prevé que jueguen un [12] SQL Injection
papel fundamental en la evolución de los http://www.owasp.org/index.php/SQL_injection
paradigmas relacionados tanto con Internet como [13] EXIF
con los Sistemas de Información. http://es.wikipedia.org/wiki/Exchangeable_imag
e_file_format
REFERENCIAS [14] RHDTool
http://www.microsoft.com/downloads/details.asp
Richard M. Smith, 2003. Microsoft Word bytes x?FamilyID=144e54ed-d43e-42ca-bc7b-
Tony Blair in the butt. Publicado en la web con 5446d34e5360&displaylang=es
URL: [15] Metadata Extractor
http://www.computerbytesman.com/privacy/blair http://meta-extractor.sourceforge.net/
.htm [16] Doc Scrubber
http://www.javacoolsoftware.com/docscrubber/in
Alonso Cebrián, José María y Rando González, dex.html
Enrique, 2008. Metadatos en Microsoft Office. [17] OOMetaExtractor
Windows TI Magazine, nº 135. Publicado en la http://www.codeplex.com/OOMetaextractor
web con URL: [18] pdftk
http://elladodelmal.blogspot.com/2008/09/metad http://www.accesspdf.com/pdftk/
atos-en-microsoft-office-i-de-v.html [19] Web Semantica
http://es.wikipedia.org/wiki/Web_sem%C3%A1ntica
Alonso Cebrián, José María y Rando González,
Enrique, 2008. Metadatos e Información Oculta
en Documentos de Openoffice. PC World PRO,
nº 257, pp. 82-91. Publicado en la web con URL:
http://elladodelmal.blogspot.com/2008/11/metad
atos-e-informacin-oculta-en.html
Alonso Cebrián, José María, Rando González,
Enrique, Guzmán Sacristán Antono y Oca,
Fracisco 2008. Modelo de referencia para la
gestión y protección de metadatos. Publicado en
el libro de actas de la Conferencia
Iberoamericana de Internet/WWW 2008.
[1] ODF
http://es.wikipedia.org/wiki/OpenDocument
[2] ISO
http://www.iso.org/
[3] XML
http://www.w3c.es/divulgacion/guiasbreves/tecn
ologiasXML
[4] OOXML
http://www.microsoft.com/spain/interop/openxm
l/ds_open_xml.mspx
[5] PDF
http://es.wikipedia.org/wiki/.pdf
[6] XMP
http://es.wikipedia.org/wiki/XMP
[7] RDF
http://es.wikipedia.org/wiki/Resource_Descriptio
n_Framework
[8] EPS