SlideShare ist ein Scribd-Unternehmen logo
1 von 12
Downloaden Sie, um offline zu lesen
¿Qué dicen de mí mis documentos?

José María Alonso Cebrián, Informática 64, chema@informatica64.com
Enrique Rando González, Junta de Andalucía en Málaga, enrique.rando@juntadeandalucia.es
Francisco Oca, Informática 64, froca@informatica64.com
Antonio Guzmán, Universidad Rey Juan Carlos, Antonio.guzman@urjc.es


RESUMEN

Hoy en día, gracias a Internet y a las intranets corporativas, los documentos en formato electrónico
pueden ser publicados o comunicados de forma sencilla.

Pero, antes de compartir o publicar documentos electrónicos, es necesario tener en consideración toda la
información que éstos contienen y las posibles implicaciones que pudiera tener su conocimiento por parte
de terceros. Aunque tal afirmación pudiera parecer trivial, un elevado número de organizaciones realiza
este control de forma inadecuada.

La causa del problema radica en el contenido adicional de los documentos: los metadatos, la información
oculta y los contenidos no deseados o informaciones perdidas. Los dos primeros son incorporados por la
mayor parte de las aplicaciones utilizadas para la creación o manipulación de los ficheros; los últimos son
introducidos por los usuarios y mantenidos posteriormente, bien por descuido, bien de forma
malintencionada.

La consecuencia es que quedan comprometidas tanto la seguridad de los sistemas de información como la
imagen corporativa de la organización.

Por otro lado, toda esta información adicional no tiene necesariamente que ser perjudicial. Los metadatos
son el fundamento de la Web Semántica y de muchos Sistemas Documentales. Describen y aportan valor
a los documentos. Son, por tanto, un activo más que las organizaciones deben proteger y administrar.

El/la presente artículo/ponencia muestra los riesgos e inconvenientes que conlleva la falta de control
sobre los contenidos adicionales de los documentos. Se proporcionan ejemplos de cómo gestionarlos,
cómo protegerlos y cómo limpiar correctamente los documentos antes de hacerlos públicos.
CONTENIDOS ADICIONALES                               Una revisión no rigurosa puede dejar pasar
                                                     encabezados y pies de páginas con datos no
Un documento publicado contiene todos aquellos       apropiados, textos o elementos invisibles por ser
elementos que sus autores incluyeron                 del mismo color que el fondo, objetos ocultos
voluntariamente en él, y que pueden ser de           por otros que se les superponen, párrafos cortos
diversa naturaleza: texto, imágenes, audio, video,   con datos personales, etc…
etc… Pero junto con el propio documento se
almacena otra información que quizá el autor no      A modo de ejemplo, obsérvese el siguiente
desea, no ha valorado en su justa medida el          documento PDF:
impacto de la publicación de la misma o
simplemente que ha sido incluida por descuido.
Estos contenidos adicionales pueden haber sido
incluidos tanto por los propios autores,
voluntaria o involuntariamente, como de forma
automática por las aplicaciones utilizadas para la
creación y edición de los documentos.

Algunos de esos contenidos adicionales pueden
aportar valor al documento y facilitar su
localización o gestión si han sido debidamente        Imagen 1: Documento PDF con información oculta
tratados. Este es el caso de los metadatos. Estos
son un conjunto de datos descriptivos que            Los cuadros de color rojo ocultan parte del texto,
aportan meta-información sobre el documento y        ya que los autores consideraron que no era
que suelen almacenarse junto con él. Son             oportuno     mostrarlo.   Sin    embargo,      un
metadatos, por ejemplo, el nombre o                  procedimiento tan simple como seleccionar todo
identificador del autor, el título, el número de     el texto, usar la opción “Copiar” del menú
páginas o la fecha de creación.                      “Edición” y pegar en una ventana de Bloc de
                                                     Notas, u otro programa similar, permite desvelar
Los metadatos han sido utilizados durante años       el contenido que antes quedaba oculto.
en los sistemas de Gestión Documental y son
parte fundamental de la base tecnológica de la
llamada Web Semántica. Gracias a ellos, las
aplicaciones futuras podrán incluir nuevas
funcionalidades y trabajar de forma automática y
autónoma con documentos publicados en
Internet.

Sin embargo, son pocas las organizaciones que
gestionan apropiadamente los contenidos
adicionales de los documentos. Y con ello no
sólo desaprovechan el activo que éstos suponen
sino que también pueden poner en compromiso               Imagen 2: Texto oculto en documento PDF
la seguridad de sus sistemas de información y la
imagen corporativa. Muchos documentos son            Por otro lado, no sólo los autores introducen
publicados o enviados a través de sistemas de        información adicional en el documento. Las
mensajería electrónica, sin haber realizado un       aplicaciones incorporan de forma automática
control previo de sus contenidos adicionales y de    otros datos que pueden tener un carácter
las repercusiones que su conocimiento por parte      operacional o descriptivo.
de terceros pudiera tener.
                                                     Los datos de carácter operacional son
Para aportar soluciones que eviten o mitiguen        introducidos por las aplicaciones de forma
este problema se deben analizar las causas que       automática y no suelen ser visibles para los
originan las publicaciones incontroladas de          usuarios. A esta información adicional se le
información.                                         denomina “información oculta”. Las aplicaciones
                                                     los utilizan como ayuda para procesar de forma
Por otro lado, los autores pueden incluir            correcta y eficiente la los documentos.
elementos inadecuados en el documento que
terminen pasando inadvertidos a los revisores y      En resumen, un documento publicado puede
siendo publicados o comunicados. Se habla            conllevar tres tipos de contenidos adicionales:
entonces de datos perdidos.
Metadatos, Información Perdida y/o Información        es decir, un conjunto de archivos en formato
Oculta.                                               XML comprimidos.

Independientemente de la causa que los pueda          • PDF: Estándar abierto de ISO utilizado
originar, los contenidos adicionales no               masivamente en Internet. PDF (Portable
gestionados suponen un riesgo para las                Document Format) [5] es un formato de
organizaciones.                                       documento Postscript en el que la información se
                                                      estructura como una jerarquía de objetos
FORMATOS DE FICHERO                                   relacionados. Los metadatos pueden encontrarse,
                                                      dentro de esa jerarquía, en diversas formas tales
En los apartados siguientes se van a mostrar          como elementos del Diccionario de Información
ejemplos    de    problemas      de    seguridad      del Documento o en objetos con contenido XMP
relacionados con varios de los tipos de archivos      (eXtensible Metadata Platform) [6] (RDF
más comunes en Internet. Con ello no se quiere        (Resource Description Framework) [7] / XML).
indicar que otros formatos no presenten               XMP es un formato de almacenamiento de
problemas similares.                                  metadatos utilizado por muchos formatos de
                                                      archivos tales como los documentos Postscript,
Para este estudio se han utilizado los siguientes     ficheros EPS (Encapsulated PostScript) [8] o
formatos:                                             archivos gráficos como PNG (Portable Network
                                                      Graphics) [9].
• ODF: El formato ODF (Open Document
Format) [1] es un estándar abierto aprobado por       RIESGOS ASOCIADOS A LOS
la ISO (International Standard Organization) [2]      CONTENIDOS ADICIONALES NO
que está ampliamente documentado. Es utilizado,       CONTROLADOS
entre otros, por el paquete ofimático
OpenOffice.org y todas las suites ofimáticas          La pregunta es ¿y qué información puede
derivadas. La característica principal de este        encontrarse dentro de esos formatos de ficheros
formato de archivo es el almacenamiento de la         que sea un riesgo para la seguridad de la
información en ficheros XML (eXtensible               organización? En los siguientes apartados
Markup Language) [3] comprimidos. Entre los           podemos ver la respuesta.
distintos ficheros XML que almacenan la
estructura y datos del documento son importantes      Datos identificativos de personas y equipos
para este estudio los siguientes:
                                                      Buena parte de las aplicaciones usadas para la
    ◦ meta.xml: Archivo que almacena los              edición de documentos almacenan datos
    metadatos asociados al documento.                 personales relativos al usuario. Por ejemplo, la
                                                      primera vez que un usuario inicia una aplicación
    ◦ settings.xml: Archivo que almacenad             de Microsoft Office aparece una ventana similar
    los ajustes del documento. Entre ellos            a la siguiente:
    pueden figurar datos perdidos, como
    nombres de impresora, datos de conexión a
    bases de datos, etc…

    ◦ content.xml: Este archivo almacena el
    contenido principal del documento en sí.

• MS Office: Los formatos de documento
utilizados en la suite ofimática Microsoft ffice se
convirtieron en un estándar de facto. Hasta la
versión Office 2003 incluida, los documentos se         Imagen 3: Información de usuario en MS Office
guardaban       usando      un     formato       de
almacenamiento estructurado en ficheros               La información que aparece por defecto en el
binarios. El formato de estos ficheros binarios       campo “Nombre” es la cuenta del usuario actual.
fue liberado en febrero de 2008. Sin embargo, a       Desafortunadamente, en muchas ocasiones este
partir de la versión de la suite de Microsoft         hecho pasa desapercibido o no se reconoce la
Office 2007, el formato de archivo fue cambiado       importancia que tiene.
y desde entonces se utiliza OOXML (Office
Open XML) [4], un formato de documento                OpenOffice presenta una pantalla similar:
abierto aprobado por ISO como ISO 29.500 y
que mantiene una estructura similar a la de ODF,
Esta filtración involuntaria de datos se puede
                                                    producir también con otros tipos de documentos.
                                                    Por ejemplo, en este fichero PDF ha quedado
                                                    registrada la cuenta de usuario de su autor:




  Imagen 4: Información de usuario en OpenOffice       Imagen 7: Información de autor en fichero PDF

Los datos que se incluyan en esta pantallas serán   Otros datos que pueden resultar especialmente
recordadas por las aplicaciones y podrán ser        peligrosos son los relativos a impresoras. En
incluidos en los documentos creados mediante        algunos casos, la información se limita, como
ellas. En el caso de Microsoft Word, se revelaría   mucho, a poco más que una marca y un modelo.
la cuenta de acceso al sistema del autor:           Es el caso de la figura siguiente, que muestra
                                                    parte del contenido del settings.xml de un
                                                    documento de OpenOffice:

                                                       …
                                                       <config:config-item
                                                       config:name="PrinterName"
                                                       config:type="string">EPSON Stylus DX4000
                                                       Series</config:config-item>
                                                       …


                                                    Imagen 8: Información de impresora en fichero ODF.
   Imagen 5: Información resumen en MS Word
                                                    El conocimiento de la marca y el modelo de la
Por otro lado, analizando el fichero meta.xml de    impresora ayudar a determinar desde que equipo
un documento de OpenOffice, puede observarse        en concreto se editó el documento. Además,
cómo aparecen detalles relativos al programa        cuando se trata de una impresora compartida por
usado para la creación del documento, la versión    un equipo, los datos pueden aparecer en formato
del mismo, el Sistema Operativo utilizado y el      UNC (Universal Naming Convention) [10],
nombre propio del autor:                            revelando tanto el nombre del servidor como el
                                                    del recurso compartido.
   <?xml version="1.0" encoding="UTF-8" ?>
   <office:document-meta                               …
   xmlns:office="urn:oasis:names:tc:opendocu           <config:config-item
   ment:xmlns:office:1.0"                              config:name="PrinterName"
   xmlns:xlink="http://www.w3.org/1999/xlink"          config:type="string">servidorHP 2000C
   xmlns:dc="http://purl.org/dc/elements/1.1/"         </config:config-item>
   xmlns:meta="urn:oasis:names:tc:opendocum            …
   ent:xmlns:meta:1.0"
   xmlns:ooo="http://openoffice.org/2004/office"
   office:version="1.0">                            Imagen 9: Información de impresora en formato UNC
   <office:meta>
   <meta:generator>OpenOffice.org/2.3$Win32         O, en ocasiones, direcciones IP de equipos:
   OpenOffice.org_project/680m5$Build-
   9221</meta:generator>
   <meta:initial-creator>MiNombre                      …
   MiApellido</meta:initial-creator>
                                                       <config:config-item
   <meta:creation-date>2008-08-                        config:name="PrinterName"
   11T11:33:23</meta:creation-date>                    config:type="string">10.177.1.126EPSON
                                                       EPL-6200 Advanced</config:config-item>

    Imagen 6: Información en fichero meta.xml
                                                        Imagen 10: Información de impresora con IP
Informaciones similares pueden obtenerse
también de algunos documentos de Microsoft
Word.




                                                      Imagen 13: Ruta en perfil de usuario en MS Word

                                                     Puede deducirse fácilmente que, en estos
                                                     ejemplos, ambos documentos fueron editados por
                                                     usuarios cuyas cuentas son “mark” y “usuario97”
                                                     respectivamente.

    Imagen 11: Información de impresora con IP       En el caso de sistemas Linux/Unix pueden
                                                     apreciarse situaciones similares cuando la ruta
En este caso la impresora aparece como               incluye el directorio /home:
servidorAGFA-ProSet 9400SF, en el que se
proporciona información sobre la marca y               …
modelo, el nombre del servidor que la comparte         <meta:template xlink:type="simple"
y del recurso compartido asociado. Esta                xlink:actuate="onRequest"
información permite inferir que el usuario que ha      xlink:role="template"
trabajado en este documento tiene permisos en la       xlink:href="/home/jkl/.openoffice.org2/user/te
lista de control de acceso al recurso dónde es         mplate/NewTemplate.ott"
compartida esta impresora.                             xlink:title="NuevaPlantilla" meta:date="2008-
                                                       06-30T09:13:20" />
                                                        <meta:user-defined meta:name="Info 1" />
Muchas aplicaciones almacenan también rutas de         …
archivo correspondientes a plantillas, ficheros
incrustados o vinculados e imágenes insertadas.
Estas rutas pueden llegar a ser tan reveladoras, o      Imagen 14: Ruta a directorio HOME personal
incluso más, que los nombres de las impresoras.
En ocasiones aparecen en formato UNC,                Los documentos PDF tampoco son inmunes a
identificando máquinas servidoras y recursos         este problema. En ocasiones, durante su
compartidos. Otras veces, en sistemas Windows,       creación, se incorporan a alguno de los campos
tomarán la forma UNIDAD:ruta, pudiendo              de metadatos la ruta del documento original:
ofrecer información sobre unidades mapeadas.

En ocasiones rutas incluyen cuentas de usuarios,
como en el siguiente documento de OpenOffice:

   …
   <meta:template xlink:type="simple"
   xlink:actuate="onRequest"
   xlink:href="/C:/Documents%20and%20Setting
   s/mark/Datos%20de%20programa/OpenOffice.
   org2/user/template/NuevaPlantilla.ott"                Imagen 15: Información en propiedades PDF
   xlink:title="NuevaPlantilla" meta:date="2008-
   08-12T10:02:14" />                                Nótese que en el campo “Title” aparece una ruta
    <meta:user-defined meta:name="Info 1" />         de archivo en formato UNC y que el equipo que
   …                                                 comparte el recurso aparece identificado por su
                                                     dirección IP. Por otro lado, en el campo “Autor”
    Imagen 12: Ruta en perfil de usuario en ODF      aparece lo que podría ser una cuenta de usuario
                                                     (mark). De todo lo anterior puede deducirse que
O en este otro ejemplo, en un documento de           el usuario “mark” tiene, al menos, permisos de
Microsoft Word:                                      lectura sobre el recurso compartido.
Este ejemplo visto con el documento PDF que                       Format                 : application/pdf
                                                                  Modify Date            : 2004:07:08 11:47:19+02:00
puede parecer algo extraño es, por el contrario,                  Create Date            : 2004:07:08 11:44:32+02:00
una situación muy común cuando los                                Title                  : Listado de asistentes
                                                                  Creator                : Acrobat PDFMaker 6.0 for Word
documentos son generados con impresoras                           Author                 : LBRIDE
virtuales PDF.                                                    Producer               : Acrobat Distiller 6.0 (Windows)
                                                                  Company                : --
                                                                  Ad Hoc Review Cycle ID : 1888595674
Otra característica, como el historial de                         Email Subject          : confirmacion
revisiones de un documento, puede proporcionar                    Author Email                        : mark23@tests.edu
                                                                  Author Email Display Name           : Accountings
una combinación de cuentas de usuario y rutas de                  Previous Ad Hoc Review Cycle ID : 2062293108
archivos. La siguiente captura muestra metadatos                  Source Modified                     : D:20040708094338
e información oculta extraída de un documento
de Microsoft Word mediante la herramienta                       Imagen 18: Información extraída de documento PDF
Extract de Libextractor[11]:
                                                                Nótese como la información revelada no se
                                                                limita a la dirección de correo electrónico,
                                                                apareciendo datos sobre el software utilizado, el
                                                                sistema operativo o la cuenta del usuario.

                                                                Bases de datos y combinaciones de
                                                                correspondencia

                                                                No es habitual que se publiquen en Internet
                                                                modelos utilizados para la combinación de
  Imagen 16: Historial de Revisiones en MS Word                 correspondencia, pero sí hay ocasiones en las que
                                                                se proporciona una copia de un modelo a alguien
Entre las propiedades del documento,                            ajeno a la organización con necesidades
introducidas    durante    la    instalación  o                 parecidas por el simple y humano deseo de
configuración de la herramienta, también pueden                 ayudar o enseñar.
encontrarse direcciones de correo electrónico y
otros datos personales.                                         En estas situaciones suele tenerse en cuenta que
                                                                lo que se entrega es sólo el modelo y que, en
                                                                ningún caso se entregan los datos utilizados en la
                                                                combinación. Sin embargo, el modelo es por sí
                                                                solo bastante revelador, ya que incluye
                                                                información descriptiva de la base de datos de la
                                                                que extrae la información para rellenar sus
                                                                campos.




           Imagen 17: Información personal

O en un documento PDF, del cual se extraen los
datos mediante Exiftool:

  ExifTool Version Num     : 7.00
  File Name                : listado.pdf
  Directory                :.                                         Imagen 19: Información de base de datos
  File Size                : 481 kB
  File Modification Date   : 2007:04:09 15:45:45
  File Type                : PDF
                                                                En la Imagen 19, correspondiente a un modelo
  MIME Type                : application/pdf                    creado con Microsoft Word, el texto
  Warning                  : Install Compress::Zlib to decode   seleccionado revela prácticamente todo lo
                           filtered streams
  Encryption               : Standard v2.3                      necesario para acceder con éxito a la base de
  Page Count               :8                                   datos:
  Creator Tool             : Acrobat PDFMaker 6.0 for Word
  Metadata Date            : 2004:07:08 11:47:19+02:00
  Document ID              : uuid:0ae24002-681f-48c4-bb18-
                           0dc54d8eb14e
SELECT pruebas_0.apellidos,                  adicionales que posteriormente puedan ser
         pruebas_0.nombre, pruebas_0.tlf FROM         relacionados con los obtenidos del documento
         pruebasmetadata.pruebas pruebas_0            inicial.
         DATABASE=pruebasmetadata
         DRIVER={MySQL ODBC 3.51 Driver}
         OPTION=0                                     Así, si un documento contiene una fotografía
         PWD=PassMETADATA                             incrustada, un análisis de los metadatos de ésta,
         PORT=0 SERVER=servidor                       normalmente en formato EXIF [13], podría
         UID=UsuarioMETADATA                          arrojar datos tan llamativos como la fecha y la
                                                      hora de cuando fue tomada o la marca y el
De igual forma, en un modelo creado con               modelo de cámara o teléfono móvil usado,
OpenOffice se revela información sensible             contribuyendo a        crear un perfil de la
relativa a la Base de Datos, como el nombre de la     organización y/o el autor del documento.
instancia, o los datos relativos a tablas y
columnas:                                             Metadatos y Google

  …                                                   Los metadatos no nacieron como algo nocivo,
  <text:p text:style-name="Standard">                 sino como algo positivo que pudiera ayudar a
    <text:database-display text:table-                conocer mejor la información almacenada en un
  name="Contactos" text:table-type="table"            documento. Por ellos, su uso en los buscadores
  text:column-name="nombre" text:database-            de información en Internet, como Google, hacen
  name="Referencias"><nombre></text:database-
  display>
                                                      uso de ellos a la hora de indexar información.
  </text:p>                                           Como respuesta a una búsqueda de usuario,
  <text:p text:style-name="Standard">                 Google proporciona una serie de resultados, cada
    <text:database-display text:table-                uno de los cuales comienza con un encabezado o
  name="Contactos" text:table-type="table"            título. El valor de este encabezado suele
  text:column-name="direccion" text:database-         obtenerse del campo de Título “Title” o similar
  name="Referencias"><direccion></text:databas        de los metadatos del documento.
  e-display>
    </text:p>
  <text:p text:style-name="Standard">
    <text:database-display text:table-
  name="Contactos" text:table-type="table"
  text:column-name="clave" text:database-
  name="Referencias"><clave></text:database-
  display>
  …

      Imagen 20: Información de base de datos
                                                          Imagen 21: Resultados usando el campo title
Esta información podría ser aprovechada para
realizar ataques directos a la base de datos o para   Sin embargo, hay ocasiones, bien porque se usen
ataques de tipo indirecto, como pudieran ser los      programas que dejan vacío dicho campo, bien
de SQL Injection[12].                                 porque los usuarios hayan eliminado su
                                                      contenido, en las que no existe un campo de
Recursividad                                          metadatos de los que se pueda inferir el
                                                      encabezado del resultado. También puede
Una de las características más poderosas y            suceder que la información contenida en ese
enriquecedoras de los documentos ofimáticos es        campo sea considerada como poco relevante para
su capacidad de contener ficheros incrustados de      el análisis automático realizado por Google. En
diverso tipo como por ejemplo, otros                  esos casos Google intenta determinar valores
documentos ofimáticos, ficheros de audio o            alternativos basándose en los encabezados y los
imágenes. Estos ficheros incrustados pueden           pies de los documentos, en las primeras líneas de
incluir a su vez metadatos, datos ocultos e           texto del documento o en elementos similares.
informaciones perdidas… y más ficheros
incrustados. Asimismo, algunos formatos y             Esta forma de trabajar de Google conlleva que lo
programas incorporan opciones como la de              que antes eran datos perdidos en un documento
recordar versiones antiguas del documento.            se conviertan en metadatos, no almacenados
                                                      junto con el documento, pero fácilmente
Es posible extraer también información de estos       localizables mediante el buscador.
documentos incrustados mediante un proceso de
exploración recursivo que proporcione datos
Por ejemplo, un documento PDF con metadatos          MEDIDAS PREVENTIVAS: LIMPIEZA DE
como los mostrados en la Imagen 22:                  DOCUMENTOS

                                                     De lo expuesto hasta ahora se deduce que la fuga
                                                     de información a través de documentos
                                                     electrónicos es un serio problema cuya
                                                     complejidad se ve incrementada por el elevado
                                                     número de formatos de ficheros y definiciones de
                                                     metadatos que hay que gestionar.

                                                     Por otro lado, las aplicaciones de creación y
                                                     manipulación de documentos permiten visualizar
     Imagen 22: Metadatos en documento PDF           y editar los metadatos incorporados a cada
                                                     fichero, pero los datos ocultos suelen quedar
Cuyos encabezados y pies de página son los de la     fuera del control del usuario.
Imagen 23:
                                                     Sin embargo, la mayor parte de las herramientas
                                                     actuales de limpieza de documentos eliminan o
                                                     modifican los metadatos, pero no tienen en
                                                     cuenta la información oculta.

                                                     En el caso de los documentos creados con la
                                                     suite Microsoft Office, una de las mejores
                                                     soluciones es la opción de “Inspeccionar” un
                                                     documento que incorpora la versión 2007. Esta
                                                     herramienta busca toda la información que un
                                                     documento tiene tanto en metadatos como en
                                                     información oculta y permite eliminarla,
      Imagen 23: Encabezado y pie de página          independientemente de la versión del formato de
                                                     archivo que se esté utilizando y de la versión de
Puede terminar indexado en Google con este           Office utilizada para su creación. Además,
encabezado:                                          realiza funciones similares para cualquier tipo de
                                                     formato de documento que maneje la
                                                     herramienta.


      Imagen 24: Información de base de datos

Este proceso realizado por Google permitiría a
cualquier persona con conexión a Internet
obtener la cuenta de usuario utilizada por el
creador del documento sin necesidad de
descargar el documento. De hecho, como los
datos habrían sido obtenidos directamente de los
resultados de Google, la organización propietaria
del fichero no tendría noticia siquiera del acceso
a dicha información.

Por otro lado, cualquier metadato, ya sea
embebido en el documento o creado por el
buscador, que quede reflejado en los resultados            Imagen 25: Información de base de datos
de una búsqueda en Google plantea un problema
añadido: Incluso si la organización detecta el       Para las versiones de Microsoft Office anteriores
problema y corrige o elimina el documento, la        a 2007 (versiones XP y 2003), la compañía puso
Caché del buscador puede seguir almacenando          a disposición de los usuarios un plug-in con
los datos anteriores durante algún tiempo y          funcionalidades similares llamado RHDTool
manteniéndolos visibles para cualquier usuario       [14].
de Internet.
                                                     Otra opción es utilizar herramientas de terceros
                                                     para eliminar esta información, como por
ejemplo Metadata Extractor [15] o Doc Scrubber        naturaleza, éstos deben ser objeto de una
[16]. Sin embargo, tras realizar múltiples            cuidadosa comprobación en la que, casi
pruebas, se puede constatar que la limpieza           inevitablemente, debe intervenir un revisor
realizada por estas aplicaciones no es total, y, en   humano.
el caso de datos ocultos como los nombres de
impresoras, seguían almacenados en los                SOLUCIONES GLOBALES
documentos tras ser limpiados.
                                                      Aplicaciones como las indicadas en el punto
Por lo que respecta a OpenOffice, el número de        anterior sólo suponen una solución parcial al
herramientas disponibles es muy reducido y            problema, si bien suponen una considerable
normalmente no tienen en cuenta la información        mejora en el nivel de seguridad. Por ello, es
oculta.                                               necesario definir una solución global que
                                                      abarque todos los aspectos y funcionalidades
A este respecto, cabe destacar OOMetaExtractor        asociadas a los metadatos y a la información
[17], que permite extraer y eliminar metadatos e      oculta.
información oculta tanto para un único
documento como para todos los que estén               La solución no debe consistir en la eliminación
almacenados en una determinada carpeta o              sistemática de datos, puesto que los metadatos,
directorio. Se trata de una herramienta de código     debidamente gestionados, pueden ser utilizados
abierto que disponible para sistemas Microsoft        por distintas aplicaciones para procesar
Windows.                                              automáticamente los documentos. Así lo vienen
                                                      haciendo    muchos sistemas de gestión
                                                      documental y, en el futuro, se prevé que sea ése
                                                      el modo de operación de la Web Semántica [19].
                                                      La información oculta, una vez bajo control,
                                                      también puede ser aprovechada de diversas
                                                      formas.

                                                      En los siguientes apartados se propone un marco
                                                      para el desarrollo de sistemas de gestión de estos
                                                      contenidos adicionales.

                                                      Políticas Corporativas sobre metadatos e
                                                      información oculta

           Imagen 26: OOMetaextractor                 Dado por sentado que los datos adicionales
                                                      deben ser gestionados y no borrados, es
El caso de los documentos PDF es más complejo         necesario disponer de reglas que permitan
si cabe. No sólo porque hay que tener en cuenta       determinar si los valores contenidos en los
los distintos formatos de metadatos que puede         mismos, y el uso que se hace de ellos, son
incluir, sino porque en muchas ocasiones las          aceptables o no.
herramientas que dicen limpiar los metadatos en
realidad no lo hacen. En su lugar, simplemente,       La comparación de los datos adicionales de cada
eliminan las referencias a los metadatos,             documento con estos patrones hará posible la
dejándolos al margen de la jerarquía de objetos       detección y resolución de situaciones de riesgo o
del fichero, sin eliminarlos.                         no deseadas.

Pruebas hechas con Adobe Acrobat indican que,         A las definiciones formales de estas normas se
si se eliminan los metadatos y se guarda el           les denominará en este artículo “Políticas
resultado con otro nombre de archivo,                 Corporativas sobre metadatos e información
desaparecen los metadatos anteriores.                 oculta” o, simplemente “políticas corporativas”.
                                                      En ellas se especificará la forma y los valores
Otra opción es usar el comando cat de pdftk [18],     que pueden tomar los datos adicionales dentro de
que copia sólo el contenido de las páginas a otro     la organización y cómo y por quién pueden ser
archivo. En este caso el problema es que también      éstos manipulados.
son eliminados otros elementos del documento
como, por ejemplo, los enlaces.                       Estas políticas corporativas deben asegurar, al
                                                      menos, los tres objetivos principales expresados
En este análisis no se ha hecho referencia a los      hasta el momento:
datos perdidos. Debido a su especial y variada
• El mantenimiento de la imagen corporativa:          dirigirían al atacante hacia recursos falsos,
por ejemplo, especificando que el campo de            monitorizados por el Sistema de Detección de
“Autor” debe contener el nombre de la                 Intrusos (IDS) de la organización. A la
organización.                                         componente del sistema de seguridad de
                                                      metadatos cuya función es la definición y la
• El correcto funcionamiento del software que         aplicación de las políticas relacionadas con esta
pueda utilizar los metadatos: garantizando que        operativa se le llamará “Metadata Honeypot”.
ningún documento queda fuera de los flujos de
trabajo por contener metadatos u otra                 La imagen falsa de red que se ofrezca debe ser
información errónea.                                  consistente y creíble, para lo cual se creará un
                                                      modelo de red que contemplará elementos como:
• La seguridad: no sólo por los problemas de
fuga de información. A medida que proliferen los      •   El direccionamiento IP
programas capaces de gestionar los metadatos y
la información oculta, es de esperar que surjan       •   La estructura de dominios y subdominios
nuevos tipos de malware que intenten manipular
estos datos con objeto de aprovechar nuevas           •   Las sedes, sus direcciones, etc.
vulnerabilidades o provocar fallos en las
aplicaciones corporativas.                            • Notación para los nombres de equipos,
                                                      elementos de la red y los usuarios
Estas políticas incluirán, entre otras cosas,
información sobre los permisos de acceso a los        • Para cada equipo: nombre,             dirección,
metadatos y deberán ser objeto, a su vez, de unos     recursos compartidos y rutas locales.
permisos de acceso autorizado.
                                                      • Para cada usuario: nombre propio, cuenta,
Asimismo, deben dar respuesta tanto a las             equipos y aplicaciones que usa, servidores y
necesidades globales de la organización como a        recursos compartidos a los que accede, cuenta de
las particularidades de cada una de sus unidades.     correo y otros datos de contacto.
Para ello, se propone utilizar un modelo formal
de la organización, con sus unidades y                Por supuesto, el contenido y alcance particular
operaciones, basada en un directorio LDAP, u          del modelo deberá adaptarse a las necesidades de
otra herramienta de similar naturaleza.               cada organización. Una vez creado, deberá
                                                      crearse la infraestructura de detección de
El directorio LDAP, o el directorio que en cada       intrusiones que monitorice cualquier intento de
caso se seleccione, deberá funcionar de forma         acceso a la red inexistente.
distribuida y replicada entre las distintas sedes o
unidades de la organización, de forma que se          El modelo así definido se integrará en las
garantice la actualización y disponibilidad de la     políticas corporativas y será utilizado para
información.                                          construir conjuntos de metadatos, datos ocultos e
                                                      informaciones perdidas, de acuerdo con los
Cada nodo del árbol de directorio tendrá              distintos tipos de documentos que se utilicen en
asociado un conjunto de políticas que será el         la organización, para que den soporte la imagen
resultado de la combinación de las políticas          de red ficticia.
heredadas de sus nodos superiores y de las
políticas definidas expresamente para ese nodo.       La generación de conjuntos de datos se podrá
                                                      realizar en tiempo real, en el momento de
Componente Metadata Honeypot                          asignarlos al documento, o de forma masiva,
                                                      durante la configuración y las actualizaciones del
Los datos adicionales, presentes en los               sistema. Durante la manipulación, publicación,
documentos, son un vector de ataque que puede         envío o compartición de los documentos se
ser aprovechado por los ciberdelincuentes para        incorporará a los mismos los correspondientes
determinar una imagen de las redes internas de a      conjuntos de metadatos que contemplarán, entre
la organización, y del funcionamiento de ésta,        otras, las necesidades del Metadata Honeypot.
que les ayude a realizar con éxito sus actividades
ilícitas.                                             Monitorización proactiva de las publicaciones
Ante esta situación, las organizaciones podrían       Los intentos de establecer un modelo de red a
introducir metadatos modificados de forma que         partir de los datos adicionales incluidos en los
proporcionen al atacante una imagen falsa de su       documentos siguen unos patrones muy
red interna o su funcionamiento. Estos metadatos
determinados, que incluyen la descarga masiva       las aplicaciones antivirus y antimalware podrían
de ficheros ofimáticos. La monitorización y         hacer recomendable integrar ambos elementos en
detección de estos comportamientos sospechosos      un mismo producto. De hecho, como se indicó
permitiría tomar las contramedidas oportunas,       anteriormente, es muy probable que en el futuro
que podrían variar desde denegar los posteriores    surjan nuevos tipos de malware orientados a la
accesos al posible atacante a, en casos de          manipulación y detección de metadatos,
especial gravedad, suspender temporalmente la       información oculta y datos perdidos.
publicación de documentos.
                                                    Tampoco se debe olvidar la importancia de los
Este control se complica en entornos con            procesos manuales de aprobación de contenidos
recursos distribuidos. En estos casos será          en los sistemas de publicación. En esta tarea, se
necesario construir una red de servidores de        debe presentar a los revisores las informaciones
monitorización de accesos que repliquen entre sí    adicionales que los documentos acarrean y las
las situaciones detectadas, ya sea a intervalos     implicaciones que éstas pueden tener. Todo ello
regulares, bajo demanda o ante situaciones de       con un lenguaje y una forma comprensibles.
alarma. Deberá garantizarse que todo servidor
web, así como cualquier otro tipo de servicio de    Como regla general, no debería ser posible
publicación de contenidos, pueda comunicarse e      aprobar la publicación de un documento si antes
integrarse con, al menos, uno de los servidores     no se ha dado el visto bueno, de forma expresa, a
de monitorización.                                  todos los datos adicionales asociados a él.

Protección en los procesos internos                 Consideraciones de funcionamiento

Las medidas de protección anteriores, aunque        Existen múltiples formatos de documento. Y
necesarias, son manifiestamente insuficientes.      cada uno puede almacenar uno, o incluso varios,
Un documento elaborado utilizando los medios        formatos de metadatos y otras informaciones
de una organización puede salir fuera de ésta a     adicionales. Sin embargo, las políticas
través de una inmensa variedad de canales no        corporativas deben hacer referencia a un único
formales, tales como copias en medios extraíbles,   modelo global de metadatos en la organización.
accesos ilegítimos o no autorizados, envíos por
correo electrónico, publicaciones en páginas web    Esta diferencia de enfoque se puede resolver
particulares o simplemente siendo copiados          mediante el uso de extensiones, que actuarían
desde una unidad de red.                            como intermediarios entre el sistema de
                                                    protección de datos adicionales y los documentos
Ante esta dificultad, no cabe otra solución que     gestionados.
integrar las políticas corporativas en todos los
procesos      de      creación,    manipulación,    Cada extensión gestionaría uno o varios formatos
comunicación y publicación de documentos. La        de documentos, bien basándose en la extensión
monitorización debe realizarse en tiempo real       del fichero o en su contenido. Su principal
para asegurar, en todo momento, la idoneidad de     función sería asegurar la consistencia de los
los conjuntos de datos adicionales. Todo ello,      metadatos con las políticas corporativas,
incluso en el caso de que no se prevea su           adaptándolas a las peculiaridades de cada
publicación o remisión.                             formato de documento y a los distintos tipos de
                                                    operaciones que se pueden llevar a cabo sobre
Asimismo, sería preciso disponer de la opción de    los mismos.
realizar comprobaciones bajo demanda o
programadas.                                        Para asegurar la interoperatividad entre los
                                                    diferentes sistemas de gestión de datos
Como resultado de estos análisis se podrían         adicionales en los documentos y las extensiones
detectar posibles inconsistencias que, cuando       escritas por terceros, deberán establecerse
fuera posible, serían corregidas de forma           protocolos estándares de interacción entre
automática. En caso de que la gravedad del          ambos.
problema así lo aconsejara, se producirían las
correspondientes alertas y actuaciones de           CONCLUSIÓN
seguridad.
                                                    Los documentos incluyen informaciones
La monitorización deberá llevarse a cabo en         adicionales que, debidamente gestionadas,
todos los equipos en los que se almacene,           pueden contribuir a mejorar la seguridad, la
gestione o manipule documentos. Las similitudes     imagen y el funcionamiento de las
entre este proceso y la forma en que funcionan      organizaciones. Sin embargo, hasta la fecha, se
ha venido prestando poca atención a esta              http://es.wikipedia.org/wiki/PostScript_encapsul
característica de la tecnología. El resultado es un   ado
elevado riesgo de fuga de información y, en           [9] PNG
ocasiones, daños causados a la imagen                 http://es.wikipedia.org/wiki/PNG
corporativa.                                          [10] UNC
                                                      http://www.webopedia.com/TERM/U/UNC.html
Estos datos adicionales deben ser considerados        [11] Libextractor
como un nuevo recurso que hay que proteger y          http://gnunet.org/libextractor/
administrar, puesto que se prevé que jueguen un       [12] SQL Injection
papel fundamental en la evolución de los              http://www.owasp.org/index.php/SQL_injection
paradigmas relacionados tanto con Internet como       [13] EXIF
con los Sistemas de Información.                      http://es.wikipedia.org/wiki/Exchangeable_imag
                                                      e_file_format
REFERENCIAS                                           [14] RHDTool
                                                      http://www.microsoft.com/downloads/details.asp
Richard M. Smith, 2003. Microsoft Word bytes          x?FamilyID=144e54ed-d43e-42ca-bc7b-
Tony Blair in the butt. Publicado en la web con       5446d34e5360&displaylang=es
URL:                                                  [15] Metadata Extractor
http://www.computerbytesman.com/privacy/blair         http://meta-extractor.sourceforge.net/
.htm                                                  [16] Doc Scrubber
                                                      http://www.javacoolsoftware.com/docscrubber/in
Alonso Cebrián, José María y Rando González,          dex.html
Enrique, 2008. Metadatos en Microsoft Office.         [17] OOMetaExtractor
Windows TI Magazine, nº 135. Publicado en la          http://www.codeplex.com/OOMetaextractor
web                    con                URL:        [18] pdftk
http://elladodelmal.blogspot.com/2008/09/metad        http://www.accesspdf.com/pdftk/
atos-en-microsoft-office-i-de-v.html                  [19] Web Semantica
                                                      http://es.wikipedia.org/wiki/Web_sem%C3%A1ntica
Alonso Cebrián, José María y Rando González,
Enrique, 2008. Metadatos e Información Oculta
en Documentos de Openoffice. PC World PRO,
nº 257, pp. 82-91. Publicado en la web con URL:
http://elladodelmal.blogspot.com/2008/11/metad
atos-e-informacin-oculta-en.html

Alonso Cebrián, José María, Rando González,
Enrique, Guzmán Sacristán Antono y Oca,
Fracisco 2008. Modelo de referencia para la
gestión y protección de metadatos. Publicado en
el libro de actas de la Conferencia
Iberoamericana de Internet/WWW 2008.

[1] ODF
http://es.wikipedia.org/wiki/OpenDocument
[2] ISO
http://www.iso.org/
[3] XML
http://www.w3c.es/divulgacion/guiasbreves/tecn
ologiasXML
[4] OOXML
http://www.microsoft.com/spain/interop/openxm
l/ds_open_xml.mspx
[5] PDF
http://es.wikipedia.org/wiki/.pdf
[6] XMP
http://es.wikipedia.org/wiki/XMP
[7] RDF
http://es.wikipedia.org/wiki/Resource_Descriptio
n_Framework
[8] EPS

Weitere ähnliche Inhalte

Was ist angesagt?

Glosario base de datos
Glosario base de datos Glosario base de datos
Glosario base de datos antoca4
 
Quasi - Sistemas de Información Ficheros y Bases de datos
Quasi - Sistemas de Información Ficheros y Bases de datosQuasi - Sistemas de Información Ficheros y Bases de datos
Quasi - Sistemas de Información Ficheros y Bases de datosdegarden
 
Análisis y diseño de sistemas de información II
Análisis y diseño de sistemas de información IIAnálisis y diseño de sistemas de información II
Análisis y diseño de sistemas de información IIFlorez85
 
Glosario base de datos presentacion
Glosario base de datos presentacionGlosario base de datos presentacion
Glosario base de datos presentacionjohanasolis
 
Trabajo Final Base De Datos
Trabajo Final Base De DatosTrabajo Final Base De Datos
Trabajo Final Base De Datosricardo901
 
4 4 Bases De Datos
4 4 Bases De Datos4 4 Bases De Datos
4 4 Bases De DatosUVM
 
Diseño de una base de datos (trabajo final)
Diseño de una base de datos (trabajo final)Diseño de una base de datos (trabajo final)
Diseño de una base de datos (trabajo final)Viviana Sanchez
 
Glosario base de datos
Glosario base de datosGlosario base de datos
Glosario base de datososmerisanchez
 
Plantilla con-normas-icontec (3) (1) (2)
Plantilla con-normas-icontec (3) (1) (2) Plantilla con-normas-icontec (3) (1) (2)
Plantilla con-normas-icontec (3) (1) (2) Jorge Martinez
 

Was ist angesagt? (20)

Glosario base de datos
Glosario base de datos Glosario base de datos
Glosario base de datos
 
Corregidas (1)
Corregidas (1)Corregidas (1)
Corregidas (1)
 
Quasi - Sistemas de Información Ficheros y Bases de datos
Quasi - Sistemas de Información Ficheros y Bases de datosQuasi - Sistemas de Información Ficheros y Bases de datos
Quasi - Sistemas de Información Ficheros y Bases de datos
 
Análisis y diseño de sistemas de información II
Análisis y diseño de sistemas de información IIAnálisis y diseño de sistemas de información II
Análisis y diseño de sistemas de información II
 
Glosario base de datos presentacion
Glosario base de datos presentacionGlosario base de datos presentacion
Glosario base de datos presentacion
 
base de datos
base de datos base de datos
base de datos
 
Presentación1
Presentación1Presentación1
Presentación1
 
Trabajo Final Base De Datos
Trabajo Final Base De DatosTrabajo Final Base De Datos
Trabajo Final Base De Datos
 
Access 2003 (2) ejercicios
Access 2003 (2) ejerciciosAccess 2003 (2) ejercicios
Access 2003 (2) ejercicios
 
Base de datos
Base de datosBase de datos
Base de datos
 
4 4 Bases De Datos
4 4 Bases De Datos4 4 Bases De Datos
4 4 Bases De Datos
 
Diseño de una base de datos (trabajo final)
Diseño de una base de datos (trabajo final)Diseño de una base de datos (trabajo final)
Diseño de una base de datos (trabajo final)
 
Capitulo 1 David M. Kroenke
Capitulo 1 David M. KroenkeCapitulo 1 David M. Kroenke
Capitulo 1 David M. Kroenke
 
Capitulo 1 Reinosa y Maldonado
Capitulo 1 Reinosa y MaldonadoCapitulo 1 Reinosa y Maldonado
Capitulo 1 Reinosa y Maldonado
 
Guia de Base de Datos Unidad 1. Lissette T
Guia de Base de Datos Unidad 1. Lissette TGuia de Base de Datos Unidad 1. Lissette T
Guia de Base de Datos Unidad 1. Lissette T
 
Glosario base de datos
Glosario base de datosGlosario base de datos
Glosario base de datos
 
Access
AccessAccess
Access
 
Plantilla con-normas-icontec (3) (1) (2)
Plantilla con-normas-icontec (3) (1) (2) Plantilla con-normas-icontec (3) (1) (2)
Plantilla con-normas-icontec (3) (1) (2)
 
Metadatos tarea
Metadatos tareaMetadatos tarea
Metadatos tarea
 
Base de datos
Base de datosBase de datos
Base de datos
 

Andere mochten auch

Jan a jul 2011 - sergipeprevidência
Jan a jul   2011 - sergipeprevidênciaJan a jul   2011 - sergipeprevidência
Jan a jul 2011 - sergipeprevidênciaMARIO ALMEIDA
 
Icraf Nairobi March 20 2007 V1
Icraf Nairobi March 20 2007 V1Icraf Nairobi March 20 2007 V1
Icraf Nairobi March 20 2007 V1obutuz
 
Noah Cohen, Pecha Kucha of my K-8 teaching resources
Noah Cohen, Pecha Kucha of my K-8 teaching resourcesNoah Cohen, Pecha Kucha of my K-8 teaching resources
Noah Cohen, Pecha Kucha of my K-8 teaching resourcesNoah Cohen
 
Fondo del programa de Cooperación Técnica (TCPF)
Fondo del programa de Cooperación Técnica (TCPF)Fondo del programa de Cooperación Técnica (TCPF)
Fondo del programa de Cooperación Técnica (TCPF)FAO
 

Andere mochten auch (7)

Jan a jul 2011 - sergipeprevidência
Jan a jul   2011 - sergipeprevidênciaJan a jul   2011 - sergipeprevidência
Jan a jul 2011 - sergipeprevidência
 
23 de setiembre del 2014
23 de setiembre del 201423 de setiembre del 2014
23 de setiembre del 2014
 
Icraf Nairobi March 20 2007 V1
Icraf Nairobi March 20 2007 V1Icraf Nairobi March 20 2007 V1
Icraf Nairobi March 20 2007 V1
 
Presentation
PresentationPresentation
Presentation
 
Noah Cohen, Pecha Kucha of my K-8 teaching resources
Noah Cohen, Pecha Kucha of my K-8 teaching resourcesNoah Cohen, Pecha Kucha of my K-8 teaching resources
Noah Cohen, Pecha Kucha of my K-8 teaching resources
 
Cuaderno Think20
Cuaderno Think20Cuaderno Think20
Cuaderno Think20
 
Fondo del programa de Cooperación Técnica (TCPF)
Fondo del programa de Cooperación Técnica (TCPF)Fondo del programa de Cooperación Técnica (TCPF)
Fondo del programa de Cooperación Técnica (TCPF)
 

Ähnlich wie Ponencia250 (20)

Analisis de metadatos y cookies
Analisis de metadatos y cookiesAnalisis de metadatos y cookies
Analisis de metadatos y cookies
 
Guia 1 sistemas de archivos. carrero perez
Guia 1 sistemas de archivos. carrero perezGuia 1 sistemas de archivos. carrero perez
Guia 1 sistemas de archivos. carrero perez
 
IDCM (Capitulos 12.13,14,15)
IDCM (Capitulos 12.13,14,15)IDCM (Capitulos 12.13,14,15)
IDCM (Capitulos 12.13,14,15)
 
Cuestionario - sistemas de archivos
Cuestionario - sistemas de archivosCuestionario - sistemas de archivos
Cuestionario - sistemas de archivos
 
Cuestionario - sistemas de archivos
Cuestionario - sistemas de archivosCuestionario - sistemas de archivos
Cuestionario - sistemas de archivos
 
Unidad 4
Unidad 4Unidad 4
Unidad 4
 
Mod i, sub 2 gest archdispofim 3
Mod i, sub 2 gest archdispofim   3Mod i, sub 2 gest archdispofim   3
Mod i, sub 2 gest archdispofim 3
 
OpenDocument
OpenDocumentOpenDocument
OpenDocument
 
Tema 2 nan
Tema 2 nanTema 2 nan
Tema 2 nan
 
Josmary1
Josmary1Josmary1
Josmary1
 
Submodulo 2
Submodulo 2Submodulo 2
Submodulo 2
 
Consulta pdf
Consulta pdfConsulta pdf
Consulta pdf
 
Idetp
IdetpIdetp
Idetp
 
Solucion slideshare
Solucion slideshareSolucion slideshare
Solucion slideshare
 
Solucion slideshare
Solucion slideshareSolucion slideshare
Solucion slideshare
 
Clase dsi
Clase dsiClase dsi
Clase dsi
 
e6gzanhehtdymdkffliñ
e6gzanhehtdymdkffliñe6gzanhehtdymdkffliñ
e6gzanhehtdymdkffliñ
 
Desarrollo taller aad
Desarrollo taller aadDesarrollo taller aad
Desarrollo taller aad
 
YENIFER OLIVO.
YENIFER OLIVO.YENIFER OLIVO.
YENIFER OLIVO.
 
Taller 1 bd
Taller 1 bdTaller 1 bd
Taller 1 bd
 

Mehr von nam jap

Aprender ad words
Aprender ad wordsAprender ad words
Aprender ad wordsnam jap
 
Analisis EU Guia cookies 2013
Analisis EU Guia cookies 2013Analisis EU Guia cookies 2013
Analisis EU Guia cookies 2013nam jap
 
Llorente y Cuenca. Informe Especial Reputacion España
Llorente y Cuenca. Informe Especial Reputacion EspañaLlorente y Cuenca. Informe Especial Reputacion España
Llorente y Cuenca. Informe Especial Reputacion Españanam jap
 
Llorente & Cuenca. Revista Uno numero 11
Llorente & Cuenca. Revista Uno numero 11Llorente & Cuenca. Revista Uno numero 11
Llorente & Cuenca. Revista Uno numero 11nam jap
 
Anexo web-formato-descarga-web[1]
Anexo web-formato-descarga-web[1]Anexo web-formato-descarga-web[1]
Anexo web-formato-descarga-web[1]nam jap
 
Manual identidad visual_corporativa[1]
Manual identidad visual_corporativa[1]Manual identidad visual_corporativa[1]
Manual identidad visual_corporativa[1]nam jap
 
Curso basico de promocion y gestion inmobiliaria
Curso basico de promocion y gestion inmobiliariaCurso basico de promocion y gestion inmobiliaria
Curso basico de promocion y gestion inmobiliarianam jap
 
Relaciones agregados-macroeconomicos
Relaciones agregados-macroeconomicosRelaciones agregados-macroeconomicos
Relaciones agregados-macroeconomicosnam jap
 
92247052 las-11-creencias-irracionales-basicas-de-albert-ellis
92247052 las-11-creencias-irracionales-basicas-de-albert-ellis92247052 las-11-creencias-irracionales-basicas-de-albert-ellis
92247052 las-11-creencias-irracionales-basicas-de-albert-ellisnam jap
 

Mehr von nam jap (9)

Aprender ad words
Aprender ad wordsAprender ad words
Aprender ad words
 
Analisis EU Guia cookies 2013
Analisis EU Guia cookies 2013Analisis EU Guia cookies 2013
Analisis EU Guia cookies 2013
 
Llorente y Cuenca. Informe Especial Reputacion España
Llorente y Cuenca. Informe Especial Reputacion EspañaLlorente y Cuenca. Informe Especial Reputacion España
Llorente y Cuenca. Informe Especial Reputacion España
 
Llorente & Cuenca. Revista Uno numero 11
Llorente & Cuenca. Revista Uno numero 11Llorente & Cuenca. Revista Uno numero 11
Llorente & Cuenca. Revista Uno numero 11
 
Anexo web-formato-descarga-web[1]
Anexo web-formato-descarga-web[1]Anexo web-formato-descarga-web[1]
Anexo web-formato-descarga-web[1]
 
Manual identidad visual_corporativa[1]
Manual identidad visual_corporativa[1]Manual identidad visual_corporativa[1]
Manual identidad visual_corporativa[1]
 
Curso basico de promocion y gestion inmobiliaria
Curso basico de promocion y gestion inmobiliariaCurso basico de promocion y gestion inmobiliaria
Curso basico de promocion y gestion inmobiliaria
 
Relaciones agregados-macroeconomicos
Relaciones agregados-macroeconomicosRelaciones agregados-macroeconomicos
Relaciones agregados-macroeconomicos
 
92247052 las-11-creencias-irracionales-basicas-de-albert-ellis
92247052 las-11-creencias-irracionales-basicas-de-albert-ellis92247052 las-11-creencias-irracionales-basicas-de-albert-ellis
92247052 las-11-creencias-irracionales-basicas-de-albert-ellis
 

Ponencia250

  • 1. ¿Qué dicen de mí mis documentos? José María Alonso Cebrián, Informática 64, chema@informatica64.com Enrique Rando González, Junta de Andalucía en Málaga, enrique.rando@juntadeandalucia.es Francisco Oca, Informática 64, froca@informatica64.com Antonio Guzmán, Universidad Rey Juan Carlos, Antonio.guzman@urjc.es RESUMEN Hoy en día, gracias a Internet y a las intranets corporativas, los documentos en formato electrónico pueden ser publicados o comunicados de forma sencilla. Pero, antes de compartir o publicar documentos electrónicos, es necesario tener en consideración toda la información que éstos contienen y las posibles implicaciones que pudiera tener su conocimiento por parte de terceros. Aunque tal afirmación pudiera parecer trivial, un elevado número de organizaciones realiza este control de forma inadecuada. La causa del problema radica en el contenido adicional de los documentos: los metadatos, la información oculta y los contenidos no deseados o informaciones perdidas. Los dos primeros son incorporados por la mayor parte de las aplicaciones utilizadas para la creación o manipulación de los ficheros; los últimos son introducidos por los usuarios y mantenidos posteriormente, bien por descuido, bien de forma malintencionada. La consecuencia es que quedan comprometidas tanto la seguridad de los sistemas de información como la imagen corporativa de la organización. Por otro lado, toda esta información adicional no tiene necesariamente que ser perjudicial. Los metadatos son el fundamento de la Web Semántica y de muchos Sistemas Documentales. Describen y aportan valor a los documentos. Son, por tanto, un activo más que las organizaciones deben proteger y administrar. El/la presente artículo/ponencia muestra los riesgos e inconvenientes que conlleva la falta de control sobre los contenidos adicionales de los documentos. Se proporcionan ejemplos de cómo gestionarlos, cómo protegerlos y cómo limpiar correctamente los documentos antes de hacerlos públicos.
  • 2. CONTENIDOS ADICIONALES Una revisión no rigurosa puede dejar pasar encabezados y pies de páginas con datos no Un documento publicado contiene todos aquellos apropiados, textos o elementos invisibles por ser elementos que sus autores incluyeron del mismo color que el fondo, objetos ocultos voluntariamente en él, y que pueden ser de por otros que se les superponen, párrafos cortos diversa naturaleza: texto, imágenes, audio, video, con datos personales, etc… etc… Pero junto con el propio documento se almacena otra información que quizá el autor no A modo de ejemplo, obsérvese el siguiente desea, no ha valorado en su justa medida el documento PDF: impacto de la publicación de la misma o simplemente que ha sido incluida por descuido. Estos contenidos adicionales pueden haber sido incluidos tanto por los propios autores, voluntaria o involuntariamente, como de forma automática por las aplicaciones utilizadas para la creación y edición de los documentos. Algunos de esos contenidos adicionales pueden aportar valor al documento y facilitar su localización o gestión si han sido debidamente Imagen 1: Documento PDF con información oculta tratados. Este es el caso de los metadatos. Estos son un conjunto de datos descriptivos que Los cuadros de color rojo ocultan parte del texto, aportan meta-información sobre el documento y ya que los autores consideraron que no era que suelen almacenarse junto con él. Son oportuno mostrarlo. Sin embargo, un metadatos, por ejemplo, el nombre o procedimiento tan simple como seleccionar todo identificador del autor, el título, el número de el texto, usar la opción “Copiar” del menú páginas o la fecha de creación. “Edición” y pegar en una ventana de Bloc de Notas, u otro programa similar, permite desvelar Los metadatos han sido utilizados durante años el contenido que antes quedaba oculto. en los sistemas de Gestión Documental y son parte fundamental de la base tecnológica de la llamada Web Semántica. Gracias a ellos, las aplicaciones futuras podrán incluir nuevas funcionalidades y trabajar de forma automática y autónoma con documentos publicados en Internet. Sin embargo, son pocas las organizaciones que gestionan apropiadamente los contenidos adicionales de los documentos. Y con ello no sólo desaprovechan el activo que éstos suponen sino que también pueden poner en compromiso Imagen 2: Texto oculto en documento PDF la seguridad de sus sistemas de información y la imagen corporativa. Muchos documentos son Por otro lado, no sólo los autores introducen publicados o enviados a través de sistemas de información adicional en el documento. Las mensajería electrónica, sin haber realizado un aplicaciones incorporan de forma automática control previo de sus contenidos adicionales y de otros datos que pueden tener un carácter las repercusiones que su conocimiento por parte operacional o descriptivo. de terceros pudiera tener. Los datos de carácter operacional son Para aportar soluciones que eviten o mitiguen introducidos por las aplicaciones de forma este problema se deben analizar las causas que automática y no suelen ser visibles para los originan las publicaciones incontroladas de usuarios. A esta información adicional se le información. denomina “información oculta”. Las aplicaciones los utilizan como ayuda para procesar de forma Por otro lado, los autores pueden incluir correcta y eficiente la los documentos. elementos inadecuados en el documento que terminen pasando inadvertidos a los revisores y En resumen, un documento publicado puede siendo publicados o comunicados. Se habla conllevar tres tipos de contenidos adicionales: entonces de datos perdidos.
  • 3. Metadatos, Información Perdida y/o Información es decir, un conjunto de archivos en formato Oculta. XML comprimidos. Independientemente de la causa que los pueda • PDF: Estándar abierto de ISO utilizado originar, los contenidos adicionales no masivamente en Internet. PDF (Portable gestionados suponen un riesgo para las Document Format) [5] es un formato de organizaciones. documento Postscript en el que la información se estructura como una jerarquía de objetos FORMATOS DE FICHERO relacionados. Los metadatos pueden encontrarse, dentro de esa jerarquía, en diversas formas tales En los apartados siguientes se van a mostrar como elementos del Diccionario de Información ejemplos de problemas de seguridad del Documento o en objetos con contenido XMP relacionados con varios de los tipos de archivos (eXtensible Metadata Platform) [6] (RDF más comunes en Internet. Con ello no se quiere (Resource Description Framework) [7] / XML). indicar que otros formatos no presenten XMP es un formato de almacenamiento de problemas similares. metadatos utilizado por muchos formatos de archivos tales como los documentos Postscript, Para este estudio se han utilizado los siguientes ficheros EPS (Encapsulated PostScript) [8] o formatos: archivos gráficos como PNG (Portable Network Graphics) [9]. • ODF: El formato ODF (Open Document Format) [1] es un estándar abierto aprobado por RIESGOS ASOCIADOS A LOS la ISO (International Standard Organization) [2] CONTENIDOS ADICIONALES NO que está ampliamente documentado. Es utilizado, CONTROLADOS entre otros, por el paquete ofimático OpenOffice.org y todas las suites ofimáticas La pregunta es ¿y qué información puede derivadas. La característica principal de este encontrarse dentro de esos formatos de ficheros formato de archivo es el almacenamiento de la que sea un riesgo para la seguridad de la información en ficheros XML (eXtensible organización? En los siguientes apartados Markup Language) [3] comprimidos. Entre los podemos ver la respuesta. distintos ficheros XML que almacenan la estructura y datos del documento son importantes Datos identificativos de personas y equipos para este estudio los siguientes: Buena parte de las aplicaciones usadas para la ◦ meta.xml: Archivo que almacena los edición de documentos almacenan datos metadatos asociados al documento. personales relativos al usuario. Por ejemplo, la primera vez que un usuario inicia una aplicación ◦ settings.xml: Archivo que almacenad de Microsoft Office aparece una ventana similar los ajustes del documento. Entre ellos a la siguiente: pueden figurar datos perdidos, como nombres de impresora, datos de conexión a bases de datos, etc… ◦ content.xml: Este archivo almacena el contenido principal del documento en sí. • MS Office: Los formatos de documento utilizados en la suite ofimática Microsoft ffice se convirtieron en un estándar de facto. Hasta la versión Office 2003 incluida, los documentos se Imagen 3: Información de usuario en MS Office guardaban usando un formato de almacenamiento estructurado en ficheros La información que aparece por defecto en el binarios. El formato de estos ficheros binarios campo “Nombre” es la cuenta del usuario actual. fue liberado en febrero de 2008. Sin embargo, a Desafortunadamente, en muchas ocasiones este partir de la versión de la suite de Microsoft hecho pasa desapercibido o no se reconoce la Office 2007, el formato de archivo fue cambiado importancia que tiene. y desde entonces se utiliza OOXML (Office Open XML) [4], un formato de documento OpenOffice presenta una pantalla similar: abierto aprobado por ISO como ISO 29.500 y que mantiene una estructura similar a la de ODF,
  • 4. Esta filtración involuntaria de datos se puede producir también con otros tipos de documentos. Por ejemplo, en este fichero PDF ha quedado registrada la cuenta de usuario de su autor: Imagen 4: Información de usuario en OpenOffice Imagen 7: Información de autor en fichero PDF Los datos que se incluyan en esta pantallas serán Otros datos que pueden resultar especialmente recordadas por las aplicaciones y podrán ser peligrosos son los relativos a impresoras. En incluidos en los documentos creados mediante algunos casos, la información se limita, como ellas. En el caso de Microsoft Word, se revelaría mucho, a poco más que una marca y un modelo. la cuenta de acceso al sistema del autor: Es el caso de la figura siguiente, que muestra parte del contenido del settings.xml de un documento de OpenOffice: … <config:config-item config:name="PrinterName" config:type="string">EPSON Stylus DX4000 Series</config:config-item> … Imagen 8: Información de impresora en fichero ODF. Imagen 5: Información resumen en MS Word El conocimiento de la marca y el modelo de la Por otro lado, analizando el fichero meta.xml de impresora ayudar a determinar desde que equipo un documento de OpenOffice, puede observarse en concreto se editó el documento. Además, cómo aparecen detalles relativos al programa cuando se trata de una impresora compartida por usado para la creación del documento, la versión un equipo, los datos pueden aparecer en formato del mismo, el Sistema Operativo utilizado y el UNC (Universal Naming Convention) [10], nombre propio del autor: revelando tanto el nombre del servidor como el del recurso compartido. <?xml version="1.0" encoding="UTF-8" ?> <office:document-meta … xmlns:office="urn:oasis:names:tc:opendocu <config:config-item ment:xmlns:office:1.0" config:name="PrinterName" xmlns:xlink="http://www.w3.org/1999/xlink" config:type="string">servidorHP 2000C xmlns:dc="http://purl.org/dc/elements/1.1/" </config:config-item> xmlns:meta="urn:oasis:names:tc:opendocum … ent:xmlns:meta:1.0" xmlns:ooo="http://openoffice.org/2004/office" office:version="1.0"> Imagen 9: Información de impresora en formato UNC <office:meta> <meta:generator>OpenOffice.org/2.3$Win32 O, en ocasiones, direcciones IP de equipos: OpenOffice.org_project/680m5$Build- 9221</meta:generator> <meta:initial-creator>MiNombre … MiApellido</meta:initial-creator> <config:config-item <meta:creation-date>2008-08- config:name="PrinterName" 11T11:33:23</meta:creation-date> config:type="string">10.177.1.126EPSON EPL-6200 Advanced</config:config-item> Imagen 6: Información en fichero meta.xml Imagen 10: Información de impresora con IP
  • 5. Informaciones similares pueden obtenerse también de algunos documentos de Microsoft Word. Imagen 13: Ruta en perfil de usuario en MS Word Puede deducirse fácilmente que, en estos ejemplos, ambos documentos fueron editados por usuarios cuyas cuentas son “mark” y “usuario97” respectivamente. Imagen 11: Información de impresora con IP En el caso de sistemas Linux/Unix pueden apreciarse situaciones similares cuando la ruta En este caso la impresora aparece como incluye el directorio /home: servidorAGFA-ProSet 9400SF, en el que se proporciona información sobre la marca y … modelo, el nombre del servidor que la comparte <meta:template xlink:type="simple" y del recurso compartido asociado. Esta xlink:actuate="onRequest" información permite inferir que el usuario que ha xlink:role="template" trabajado en este documento tiene permisos en la xlink:href="/home/jkl/.openoffice.org2/user/te lista de control de acceso al recurso dónde es mplate/NewTemplate.ott" compartida esta impresora. xlink:title="NuevaPlantilla" meta:date="2008- 06-30T09:13:20" /> <meta:user-defined meta:name="Info 1" /> Muchas aplicaciones almacenan también rutas de … archivo correspondientes a plantillas, ficheros incrustados o vinculados e imágenes insertadas. Estas rutas pueden llegar a ser tan reveladoras, o Imagen 14: Ruta a directorio HOME personal incluso más, que los nombres de las impresoras. En ocasiones aparecen en formato UNC, Los documentos PDF tampoco son inmunes a identificando máquinas servidoras y recursos este problema. En ocasiones, durante su compartidos. Otras veces, en sistemas Windows, creación, se incorporan a alguno de los campos tomarán la forma UNIDAD:ruta, pudiendo de metadatos la ruta del documento original: ofrecer información sobre unidades mapeadas. En ocasiones rutas incluyen cuentas de usuarios, como en el siguiente documento de OpenOffice: … <meta:template xlink:type="simple" xlink:actuate="onRequest" xlink:href="/C:/Documents%20and%20Setting s/mark/Datos%20de%20programa/OpenOffice. org2/user/template/NuevaPlantilla.ott" Imagen 15: Información en propiedades PDF xlink:title="NuevaPlantilla" meta:date="2008- 08-12T10:02:14" /> Nótese que en el campo “Title” aparece una ruta <meta:user-defined meta:name="Info 1" /> de archivo en formato UNC y que el equipo que … comparte el recurso aparece identificado por su dirección IP. Por otro lado, en el campo “Autor” Imagen 12: Ruta en perfil de usuario en ODF aparece lo que podría ser una cuenta de usuario (mark). De todo lo anterior puede deducirse que O en este otro ejemplo, en un documento de el usuario “mark” tiene, al menos, permisos de Microsoft Word: lectura sobre el recurso compartido.
  • 6. Este ejemplo visto con el documento PDF que Format : application/pdf Modify Date : 2004:07:08 11:47:19+02:00 puede parecer algo extraño es, por el contrario, Create Date : 2004:07:08 11:44:32+02:00 una situación muy común cuando los Title : Listado de asistentes Creator : Acrobat PDFMaker 6.0 for Word documentos son generados con impresoras Author : LBRIDE virtuales PDF. Producer : Acrobat Distiller 6.0 (Windows) Company : -- Ad Hoc Review Cycle ID : 1888595674 Otra característica, como el historial de Email Subject : confirmacion revisiones de un documento, puede proporcionar Author Email : mark23@tests.edu Author Email Display Name : Accountings una combinación de cuentas de usuario y rutas de Previous Ad Hoc Review Cycle ID : 2062293108 archivos. La siguiente captura muestra metadatos Source Modified : D:20040708094338 e información oculta extraída de un documento de Microsoft Word mediante la herramienta Imagen 18: Información extraída de documento PDF Extract de Libextractor[11]: Nótese como la información revelada no se limita a la dirección de correo electrónico, apareciendo datos sobre el software utilizado, el sistema operativo o la cuenta del usuario. Bases de datos y combinaciones de correspondencia No es habitual que se publiquen en Internet modelos utilizados para la combinación de Imagen 16: Historial de Revisiones en MS Word correspondencia, pero sí hay ocasiones en las que se proporciona una copia de un modelo a alguien Entre las propiedades del documento, ajeno a la organización con necesidades introducidas durante la instalación o parecidas por el simple y humano deseo de configuración de la herramienta, también pueden ayudar o enseñar. encontrarse direcciones de correo electrónico y otros datos personales. En estas situaciones suele tenerse en cuenta que lo que se entrega es sólo el modelo y que, en ningún caso se entregan los datos utilizados en la combinación. Sin embargo, el modelo es por sí solo bastante revelador, ya que incluye información descriptiva de la base de datos de la que extrae la información para rellenar sus campos. Imagen 17: Información personal O en un documento PDF, del cual se extraen los datos mediante Exiftool: ExifTool Version Num : 7.00 File Name : listado.pdf Directory :. Imagen 19: Información de base de datos File Size : 481 kB File Modification Date : 2007:04:09 15:45:45 File Type : PDF En la Imagen 19, correspondiente a un modelo MIME Type : application/pdf creado con Microsoft Word, el texto Warning : Install Compress::Zlib to decode seleccionado revela prácticamente todo lo filtered streams Encryption : Standard v2.3 necesario para acceder con éxito a la base de Page Count :8 datos: Creator Tool : Acrobat PDFMaker 6.0 for Word Metadata Date : 2004:07:08 11:47:19+02:00 Document ID : uuid:0ae24002-681f-48c4-bb18- 0dc54d8eb14e
  • 7. SELECT pruebas_0.apellidos, adicionales que posteriormente puedan ser pruebas_0.nombre, pruebas_0.tlf FROM relacionados con los obtenidos del documento pruebasmetadata.pruebas pruebas_0 inicial. DATABASE=pruebasmetadata DRIVER={MySQL ODBC 3.51 Driver} OPTION=0 Así, si un documento contiene una fotografía PWD=PassMETADATA incrustada, un análisis de los metadatos de ésta, PORT=0 SERVER=servidor normalmente en formato EXIF [13], podría UID=UsuarioMETADATA arrojar datos tan llamativos como la fecha y la hora de cuando fue tomada o la marca y el De igual forma, en un modelo creado con modelo de cámara o teléfono móvil usado, OpenOffice se revela información sensible contribuyendo a crear un perfil de la relativa a la Base de Datos, como el nombre de la organización y/o el autor del documento. instancia, o los datos relativos a tablas y columnas: Metadatos y Google … Los metadatos no nacieron como algo nocivo, <text:p text:style-name="Standard"> sino como algo positivo que pudiera ayudar a <text:database-display text:table- conocer mejor la información almacenada en un name="Contactos" text:table-type="table" documento. Por ellos, su uso en los buscadores text:column-name="nombre" text:database- de información en Internet, como Google, hacen name="Referencias"><nombre></text:database- display> uso de ellos a la hora de indexar información. </text:p> Como respuesta a una búsqueda de usuario, <text:p text:style-name="Standard"> Google proporciona una serie de resultados, cada <text:database-display text:table- uno de los cuales comienza con un encabezado o name="Contactos" text:table-type="table" título. El valor de este encabezado suele text:column-name="direccion" text:database- obtenerse del campo de Título “Title” o similar name="Referencias"><direccion></text:databas de los metadatos del documento. e-display> </text:p> <text:p text:style-name="Standard"> <text:database-display text:table- name="Contactos" text:table-type="table" text:column-name="clave" text:database- name="Referencias"><clave></text:database- display> … Imagen 20: Información de base de datos Imagen 21: Resultados usando el campo title Esta información podría ser aprovechada para realizar ataques directos a la base de datos o para Sin embargo, hay ocasiones, bien porque se usen ataques de tipo indirecto, como pudieran ser los programas que dejan vacío dicho campo, bien de SQL Injection[12]. porque los usuarios hayan eliminado su contenido, en las que no existe un campo de Recursividad metadatos de los que se pueda inferir el encabezado del resultado. También puede Una de las características más poderosas y suceder que la información contenida en ese enriquecedoras de los documentos ofimáticos es campo sea considerada como poco relevante para su capacidad de contener ficheros incrustados de el análisis automático realizado por Google. En diverso tipo como por ejemplo, otros esos casos Google intenta determinar valores documentos ofimáticos, ficheros de audio o alternativos basándose en los encabezados y los imágenes. Estos ficheros incrustados pueden pies de los documentos, en las primeras líneas de incluir a su vez metadatos, datos ocultos e texto del documento o en elementos similares. informaciones perdidas… y más ficheros incrustados. Asimismo, algunos formatos y Esta forma de trabajar de Google conlleva que lo programas incorporan opciones como la de que antes eran datos perdidos en un documento recordar versiones antiguas del documento. se conviertan en metadatos, no almacenados junto con el documento, pero fácilmente Es posible extraer también información de estos localizables mediante el buscador. documentos incrustados mediante un proceso de exploración recursivo que proporcione datos
  • 8. Por ejemplo, un documento PDF con metadatos MEDIDAS PREVENTIVAS: LIMPIEZA DE como los mostrados en la Imagen 22: DOCUMENTOS De lo expuesto hasta ahora se deduce que la fuga de información a través de documentos electrónicos es un serio problema cuya complejidad se ve incrementada por el elevado número de formatos de ficheros y definiciones de metadatos que hay que gestionar. Por otro lado, las aplicaciones de creación y manipulación de documentos permiten visualizar Imagen 22: Metadatos en documento PDF y editar los metadatos incorporados a cada fichero, pero los datos ocultos suelen quedar Cuyos encabezados y pies de página son los de la fuera del control del usuario. Imagen 23: Sin embargo, la mayor parte de las herramientas actuales de limpieza de documentos eliminan o modifican los metadatos, pero no tienen en cuenta la información oculta. En el caso de los documentos creados con la suite Microsoft Office, una de las mejores soluciones es la opción de “Inspeccionar” un documento que incorpora la versión 2007. Esta herramienta busca toda la información que un documento tiene tanto en metadatos como en información oculta y permite eliminarla, Imagen 23: Encabezado y pie de página independientemente de la versión del formato de archivo que se esté utilizando y de la versión de Puede terminar indexado en Google con este Office utilizada para su creación. Además, encabezado: realiza funciones similares para cualquier tipo de formato de documento que maneje la herramienta. Imagen 24: Información de base de datos Este proceso realizado por Google permitiría a cualquier persona con conexión a Internet obtener la cuenta de usuario utilizada por el creador del documento sin necesidad de descargar el documento. De hecho, como los datos habrían sido obtenidos directamente de los resultados de Google, la organización propietaria del fichero no tendría noticia siquiera del acceso a dicha información. Por otro lado, cualquier metadato, ya sea embebido en el documento o creado por el buscador, que quede reflejado en los resultados Imagen 25: Información de base de datos de una búsqueda en Google plantea un problema añadido: Incluso si la organización detecta el Para las versiones de Microsoft Office anteriores problema y corrige o elimina el documento, la a 2007 (versiones XP y 2003), la compañía puso Caché del buscador puede seguir almacenando a disposición de los usuarios un plug-in con los datos anteriores durante algún tiempo y funcionalidades similares llamado RHDTool manteniéndolos visibles para cualquier usuario [14]. de Internet. Otra opción es utilizar herramientas de terceros para eliminar esta información, como por
  • 9. ejemplo Metadata Extractor [15] o Doc Scrubber naturaleza, éstos deben ser objeto de una [16]. Sin embargo, tras realizar múltiples cuidadosa comprobación en la que, casi pruebas, se puede constatar que la limpieza inevitablemente, debe intervenir un revisor realizada por estas aplicaciones no es total, y, en humano. el caso de datos ocultos como los nombres de impresoras, seguían almacenados en los SOLUCIONES GLOBALES documentos tras ser limpiados. Aplicaciones como las indicadas en el punto Por lo que respecta a OpenOffice, el número de anterior sólo suponen una solución parcial al herramientas disponibles es muy reducido y problema, si bien suponen una considerable normalmente no tienen en cuenta la información mejora en el nivel de seguridad. Por ello, es oculta. necesario definir una solución global que abarque todos los aspectos y funcionalidades A este respecto, cabe destacar OOMetaExtractor asociadas a los metadatos y a la información [17], que permite extraer y eliminar metadatos e oculta. información oculta tanto para un único documento como para todos los que estén La solución no debe consistir en la eliminación almacenados en una determinada carpeta o sistemática de datos, puesto que los metadatos, directorio. Se trata de una herramienta de código debidamente gestionados, pueden ser utilizados abierto que disponible para sistemas Microsoft por distintas aplicaciones para procesar Windows. automáticamente los documentos. Así lo vienen haciendo muchos sistemas de gestión documental y, en el futuro, se prevé que sea ése el modo de operación de la Web Semántica [19]. La información oculta, una vez bajo control, también puede ser aprovechada de diversas formas. En los siguientes apartados se propone un marco para el desarrollo de sistemas de gestión de estos contenidos adicionales. Políticas Corporativas sobre metadatos e información oculta Imagen 26: OOMetaextractor Dado por sentado que los datos adicionales deben ser gestionados y no borrados, es El caso de los documentos PDF es más complejo necesario disponer de reglas que permitan si cabe. No sólo porque hay que tener en cuenta determinar si los valores contenidos en los los distintos formatos de metadatos que puede mismos, y el uso que se hace de ellos, son incluir, sino porque en muchas ocasiones las aceptables o no. herramientas que dicen limpiar los metadatos en realidad no lo hacen. En su lugar, simplemente, La comparación de los datos adicionales de cada eliminan las referencias a los metadatos, documento con estos patrones hará posible la dejándolos al margen de la jerarquía de objetos detección y resolución de situaciones de riesgo o del fichero, sin eliminarlos. no deseadas. Pruebas hechas con Adobe Acrobat indican que, A las definiciones formales de estas normas se si se eliminan los metadatos y se guarda el les denominará en este artículo “Políticas resultado con otro nombre de archivo, Corporativas sobre metadatos e información desaparecen los metadatos anteriores. oculta” o, simplemente “políticas corporativas”. En ellas se especificará la forma y los valores Otra opción es usar el comando cat de pdftk [18], que pueden tomar los datos adicionales dentro de que copia sólo el contenido de las páginas a otro la organización y cómo y por quién pueden ser archivo. En este caso el problema es que también éstos manipulados. son eliminados otros elementos del documento como, por ejemplo, los enlaces. Estas políticas corporativas deben asegurar, al menos, los tres objetivos principales expresados En este análisis no se ha hecho referencia a los hasta el momento: datos perdidos. Debido a su especial y variada
  • 10. • El mantenimiento de la imagen corporativa: dirigirían al atacante hacia recursos falsos, por ejemplo, especificando que el campo de monitorizados por el Sistema de Detección de “Autor” debe contener el nombre de la Intrusos (IDS) de la organización. A la organización. componente del sistema de seguridad de metadatos cuya función es la definición y la • El correcto funcionamiento del software que aplicación de las políticas relacionadas con esta pueda utilizar los metadatos: garantizando que operativa se le llamará “Metadata Honeypot”. ningún documento queda fuera de los flujos de trabajo por contener metadatos u otra La imagen falsa de red que se ofrezca debe ser información errónea. consistente y creíble, para lo cual se creará un modelo de red que contemplará elementos como: • La seguridad: no sólo por los problemas de fuga de información. A medida que proliferen los • El direccionamiento IP programas capaces de gestionar los metadatos y la información oculta, es de esperar que surjan • La estructura de dominios y subdominios nuevos tipos de malware que intenten manipular estos datos con objeto de aprovechar nuevas • Las sedes, sus direcciones, etc. vulnerabilidades o provocar fallos en las aplicaciones corporativas. • Notación para los nombres de equipos, elementos de la red y los usuarios Estas políticas incluirán, entre otras cosas, información sobre los permisos de acceso a los • Para cada equipo: nombre, dirección, metadatos y deberán ser objeto, a su vez, de unos recursos compartidos y rutas locales. permisos de acceso autorizado. • Para cada usuario: nombre propio, cuenta, Asimismo, deben dar respuesta tanto a las equipos y aplicaciones que usa, servidores y necesidades globales de la organización como a recursos compartidos a los que accede, cuenta de las particularidades de cada una de sus unidades. correo y otros datos de contacto. Para ello, se propone utilizar un modelo formal de la organización, con sus unidades y Por supuesto, el contenido y alcance particular operaciones, basada en un directorio LDAP, u del modelo deberá adaptarse a las necesidades de otra herramienta de similar naturaleza. cada organización. Una vez creado, deberá crearse la infraestructura de detección de El directorio LDAP, o el directorio que en cada intrusiones que monitorice cualquier intento de caso se seleccione, deberá funcionar de forma acceso a la red inexistente. distribuida y replicada entre las distintas sedes o unidades de la organización, de forma que se El modelo así definido se integrará en las garantice la actualización y disponibilidad de la políticas corporativas y será utilizado para información. construir conjuntos de metadatos, datos ocultos e informaciones perdidas, de acuerdo con los Cada nodo del árbol de directorio tendrá distintos tipos de documentos que se utilicen en asociado un conjunto de políticas que será el la organización, para que den soporte la imagen resultado de la combinación de las políticas de red ficticia. heredadas de sus nodos superiores y de las políticas definidas expresamente para ese nodo. La generación de conjuntos de datos se podrá realizar en tiempo real, en el momento de Componente Metadata Honeypot asignarlos al documento, o de forma masiva, durante la configuración y las actualizaciones del Los datos adicionales, presentes en los sistema. Durante la manipulación, publicación, documentos, son un vector de ataque que puede envío o compartición de los documentos se ser aprovechado por los ciberdelincuentes para incorporará a los mismos los correspondientes determinar una imagen de las redes internas de a conjuntos de metadatos que contemplarán, entre la organización, y del funcionamiento de ésta, otras, las necesidades del Metadata Honeypot. que les ayude a realizar con éxito sus actividades ilícitas. Monitorización proactiva de las publicaciones Ante esta situación, las organizaciones podrían Los intentos de establecer un modelo de red a introducir metadatos modificados de forma que partir de los datos adicionales incluidos en los proporcionen al atacante una imagen falsa de su documentos siguen unos patrones muy red interna o su funcionamiento. Estos metadatos
  • 11. determinados, que incluyen la descarga masiva las aplicaciones antivirus y antimalware podrían de ficheros ofimáticos. La monitorización y hacer recomendable integrar ambos elementos en detección de estos comportamientos sospechosos un mismo producto. De hecho, como se indicó permitiría tomar las contramedidas oportunas, anteriormente, es muy probable que en el futuro que podrían variar desde denegar los posteriores surjan nuevos tipos de malware orientados a la accesos al posible atacante a, en casos de manipulación y detección de metadatos, especial gravedad, suspender temporalmente la información oculta y datos perdidos. publicación de documentos. Tampoco se debe olvidar la importancia de los Este control se complica en entornos con procesos manuales de aprobación de contenidos recursos distribuidos. En estos casos será en los sistemas de publicación. En esta tarea, se necesario construir una red de servidores de debe presentar a los revisores las informaciones monitorización de accesos que repliquen entre sí adicionales que los documentos acarrean y las las situaciones detectadas, ya sea a intervalos implicaciones que éstas pueden tener. Todo ello regulares, bajo demanda o ante situaciones de con un lenguaje y una forma comprensibles. alarma. Deberá garantizarse que todo servidor web, así como cualquier otro tipo de servicio de Como regla general, no debería ser posible publicación de contenidos, pueda comunicarse e aprobar la publicación de un documento si antes integrarse con, al menos, uno de los servidores no se ha dado el visto bueno, de forma expresa, a de monitorización. todos los datos adicionales asociados a él. Protección en los procesos internos Consideraciones de funcionamiento Las medidas de protección anteriores, aunque Existen múltiples formatos de documento. Y necesarias, son manifiestamente insuficientes. cada uno puede almacenar uno, o incluso varios, Un documento elaborado utilizando los medios formatos de metadatos y otras informaciones de una organización puede salir fuera de ésta a adicionales. Sin embargo, las políticas través de una inmensa variedad de canales no corporativas deben hacer referencia a un único formales, tales como copias en medios extraíbles, modelo global de metadatos en la organización. accesos ilegítimos o no autorizados, envíos por correo electrónico, publicaciones en páginas web Esta diferencia de enfoque se puede resolver particulares o simplemente siendo copiados mediante el uso de extensiones, que actuarían desde una unidad de red. como intermediarios entre el sistema de protección de datos adicionales y los documentos Ante esta dificultad, no cabe otra solución que gestionados. integrar las políticas corporativas en todos los procesos de creación, manipulación, Cada extensión gestionaría uno o varios formatos comunicación y publicación de documentos. La de documentos, bien basándose en la extensión monitorización debe realizarse en tiempo real del fichero o en su contenido. Su principal para asegurar, en todo momento, la idoneidad de función sería asegurar la consistencia de los los conjuntos de datos adicionales. Todo ello, metadatos con las políticas corporativas, incluso en el caso de que no se prevea su adaptándolas a las peculiaridades de cada publicación o remisión. formato de documento y a los distintos tipos de operaciones que se pueden llevar a cabo sobre Asimismo, sería preciso disponer de la opción de los mismos. realizar comprobaciones bajo demanda o programadas. Para asegurar la interoperatividad entre los diferentes sistemas de gestión de datos Como resultado de estos análisis se podrían adicionales en los documentos y las extensiones detectar posibles inconsistencias que, cuando escritas por terceros, deberán establecerse fuera posible, serían corregidas de forma protocolos estándares de interacción entre automática. En caso de que la gravedad del ambos. problema así lo aconsejara, se producirían las correspondientes alertas y actuaciones de CONCLUSIÓN seguridad. Los documentos incluyen informaciones La monitorización deberá llevarse a cabo en adicionales que, debidamente gestionadas, todos los equipos en los que se almacene, pueden contribuir a mejorar la seguridad, la gestione o manipule documentos. Las similitudes imagen y el funcionamiento de las entre este proceso y la forma en que funcionan organizaciones. Sin embargo, hasta la fecha, se
  • 12. ha venido prestando poca atención a esta http://es.wikipedia.org/wiki/PostScript_encapsul característica de la tecnología. El resultado es un ado elevado riesgo de fuga de información y, en [9] PNG ocasiones, daños causados a la imagen http://es.wikipedia.org/wiki/PNG corporativa. [10] UNC http://www.webopedia.com/TERM/U/UNC.html Estos datos adicionales deben ser considerados [11] Libextractor como un nuevo recurso que hay que proteger y http://gnunet.org/libextractor/ administrar, puesto que se prevé que jueguen un [12] SQL Injection papel fundamental en la evolución de los http://www.owasp.org/index.php/SQL_injection paradigmas relacionados tanto con Internet como [13] EXIF con los Sistemas de Información. http://es.wikipedia.org/wiki/Exchangeable_imag e_file_format REFERENCIAS [14] RHDTool http://www.microsoft.com/downloads/details.asp Richard M. Smith, 2003. Microsoft Word bytes x?FamilyID=144e54ed-d43e-42ca-bc7b- Tony Blair in the butt. Publicado en la web con 5446d34e5360&displaylang=es URL: [15] Metadata Extractor http://www.computerbytesman.com/privacy/blair http://meta-extractor.sourceforge.net/ .htm [16] Doc Scrubber http://www.javacoolsoftware.com/docscrubber/in Alonso Cebrián, José María y Rando González, dex.html Enrique, 2008. Metadatos en Microsoft Office. [17] OOMetaExtractor Windows TI Magazine, nº 135. Publicado en la http://www.codeplex.com/OOMetaextractor web con URL: [18] pdftk http://elladodelmal.blogspot.com/2008/09/metad http://www.accesspdf.com/pdftk/ atos-en-microsoft-office-i-de-v.html [19] Web Semantica http://es.wikipedia.org/wiki/Web_sem%C3%A1ntica Alonso Cebrián, José María y Rando González, Enrique, 2008. Metadatos e Información Oculta en Documentos de Openoffice. PC World PRO, nº 257, pp. 82-91. Publicado en la web con URL: http://elladodelmal.blogspot.com/2008/11/metad atos-e-informacin-oculta-en.html Alonso Cebrián, José María, Rando González, Enrique, Guzmán Sacristán Antono y Oca, Fracisco 2008. Modelo de referencia para la gestión y protección de metadatos. Publicado en el libro de actas de la Conferencia Iberoamericana de Internet/WWW 2008. [1] ODF http://es.wikipedia.org/wiki/OpenDocument [2] ISO http://www.iso.org/ [3] XML http://www.w3c.es/divulgacion/guiasbreves/tecn ologiasXML [4] OOXML http://www.microsoft.com/spain/interop/openxm l/ds_open_xml.mspx [5] PDF http://es.wikipedia.org/wiki/.pdf [6] XMP http://es.wikipedia.org/wiki/XMP [7] RDF http://es.wikipedia.org/wiki/Resource_Descriptio n_Framework [8] EPS