El término metadatos está en auge desde hace unos años. Hoy en día, miles de millones de personas utilizan di­s­po­si­ti­vos ele­c­tró­ni­cos a nivel mundial. Por ello, se generan ingentes ca­n­ti­da­des de metadatos. De ahí surge el término “ciudadano tra­n­s­pa­re­n­te”, que describe el riesgo para la seguridad que conlleva ese in­te­r­ca­m­bio masivo de datos.

La in­te­li­ge­n­cia ar­ti­fi­cial permite analizar los metadatos para predecir el co­m­po­r­ta­mie­n­to de las personas. Esto supone una gran amenaza para la pri­va­ci­dad de las personas y para la de­mo­cra­cia misma. Sin embargo, los metadatos en sí mismos no son malos. En este artículo ex­pli­ca­mos a qué se refiere el término metadato.

¿Cuál es la di­fe­re­n­cia entre metadatos y datos?

De­fi­ni­ción

Metadatos: el término se refiere a la in­fo­r­ma­ción que co­m­ple­me­n­ta los datos pro­pia­me­n­te dichos. A menudo, los metadatos pro­po­r­cio­nan detalles sobre el contexto del contenido a mayores o dan in­di­ca­cio­nes sobre cómo manejar los datos. De este modo, los metadatos de­sem­pe­ñan un papel im­po­r­ta­n­te tanto en la in­fo­r­má­ti­ca como en la co­mpu­tación de datos co­n­ve­n­cio­nal (por ejemplo, los catálogos de las bi­blio­te­cas o el servicio de correos).

Para fa­mi­lia­ri­zar­nos con el término metadatos, veamos un ejemplo sencillo: enviamos una carta por correo. En este caso, la carta que contiene el sobre conforma los datos reales y primarios. Son datos privados y están pro­te­gi­dos del acceso de terceras personas por la ley: se les aplica el secreto de la co­rre­s­po­n­de­n­cia.

En el sobre se en­cue­n­tran los metadatos de la carta. Se trata de datos adi­cio­na­les que acompañan a los datos primarios:

  • Dirección del remitente
  • Sello postal
  • Si es necesario, otras marcas de ide­n­ti­fi­ca­ción, como los códigos de barras

Como puedes ver, estos datos son los que en primer lugar hacen posible el envío de la carta. Los metadatos de la carta fá­ci­l­me­n­te pueden ser vistos por cualquier persona ajena, por lo que no están es­pe­cia­l­me­n­te pro­te­gi­dos por el secreto de la co­rre­s­po­n­de­n­cia, aunque sí se les aplica el secreto postal.

¿Qué peligro suponen los metadatos? No es un peligro que se pueda leer unos metadatos in­di­vi­dua­les. Por ejemplo, el hecho de que personas terceras tengan acceso a los datos de un sobre in­di­vi­dual no suele ser motivo de preo­cu­pa­ción. Sin embargo, no es el mismo caso a mayor escala, pues se trata de un al­ma­ce­na­mie­n­to y análisis masivo. Es entonces cuando surgen patrones que revelan mucho acerca del co­m­po­r­ta­mie­n­to de una persona: ¿quién se ha co­mu­ni­ca­do con quién y cuándo? Así consiguen ide­n­ti­fi­car las redes y las cadenas de co­mu­ni­ca­ción.

Hay una vaga di­s­ti­n­ción entre datos y metadatos. La di­s­ti­n­ción depende del contexto y de la pe­r­s­pe­c­ti­va que se adopte. Veamos otro ejemplo. Un libro contiene datos primarios, como el título y contenido del libro, pero, por otra parte, cuenta con un conjunto de metadatos para su pu­bli­ca­ción:

  • Autor
  • Editorial
  • Fecha y lugar de pu­bli­ca­ción
  • Edición
  • ISBN

Ima­gi­ne­mos que se recogen en una base de datos los metadatos de muchas pu­bli­ca­cio­nes. Respecto a dicha base de datos, la in­fo­r­ma­ción de las pu­bli­ca­cio­nes serían datos primarios. Además, habría un nuevo conjunto de metadatos para cada pu­bli­ca­ción. Por ejemplo, la base de datos podría almacenar cuándo se añadió cada pu­bli­ca­ción y por qué usuario.

¿Qué tipos de metadatos existen y cómo se utilizan?

Los metadatos aparecen en todos los ámbitos del al­ma­ce­na­mie­n­to y procesado de datos. El uso que se les da a los metadatos no es único. Me­n­cio­na­mos aquí tres grandes áreas de uso:

1. Dar contexto a la in­fo­r­ma­ción.

Los metadatos suelen describir el proceso de creación de la in­fo­r­ma­ción. Piensa, por ejemplo, en las coor­de­na­das geo­grá­fi­cas con las que se etiquetan las fo­to­gra­fías digitales. El contexto, una vez perdido, no puede re­co­n­s­trui­r­se y, por tanto, se almacena.

2. Mantener accesible in­fo­r­ma­ción que, de otro modo, tendría que ser calculada su­po­nie­n­do un gasto excesivo de recursos del sistema.

Piensa en el tiempo de re­pro­du­c­ción de un vídeo. Se incluye como un dato de tiempo en el archivo del vídeo. Si este metadato no se guardara habría que ca­l­cu­lar­lo. Se podría contar el número de fo­to­gra­mas y dividirlo por los FPS (número de fo­to­gra­mas por segundo), lo que co­n­su­mi­ría muchos recursos.

3. In­te­r­co­ne­c­tar la in­fo­r­ma­ción para que sea más fácil en­co­n­trar­la y buscarla.

En este caso, se intenta co­m­ple­me­n­tar la in­fo­r­ma­ción destinada para los humanos con datos legibles para las máquinas. El objetivo es in­te­r­co­ne­c­tar la in­fo­r­ma­ción mediante procesos au­to­ma­ti­za­dos. En pa­r­ti­cu­lar, se suelen utilizar datos es­tru­c­tu­ra­dos, que, cuando se enlazan, forman una “Semantic Web”.

Metadatos que describen las imágenes digitales

Las imágenes tomadas con cámaras digitales y sma­r­t­pho­nes contienen una gran variedad de metadatos. Por una parte, están los datos técnicos, como las di­me­n­sio­nes de la imagen, la cámara utilizada, la distancia focal, etc. Esta in­fo­r­ma­ción viene dada en los metadatos EXIF-Standard y es la cámara la que los genera au­to­má­ti­ca­me­n­te. Por otra parte, están los metadatos IPTC-Standard, que describen el contenido de la foto y son in­tro­du­ci­dos por el usuario.

Standard Metadatos de la imagen Creación
EXIF In­fo­r­ma­ción de la imagen, como di­me­n­sio­nes, gama de color, canales de color, etc.; in­fo­r­ma­ción fo­to­grá­fi­ca, como el tiempo de ex­po­si­ción, apertura de diafragma, se­n­si­bi­li­dad ISO, etc. Au­to­má­ti­ca durante la captura
IPTC Palabras clave, derechos de autor, in­di­ca­cio­nes de lugar y fecha, de­s­cri­p­cio­nes de contenido, etc. Manual por el usuario

Hay que tener cuidado al compartir imágenes digitales: los metadatos de las fotos en de­te­r­mi­na­das ci­r­cu­n­s­ta­n­cias pueden revelar in­fo­r­ma­ción privada sobre el autor. Muchas apli­ca­cio­nes y redes sociales eliminan au­to­má­ti­ca­me­n­te los metadatos de las imágenes cuando se suben. De todos modos, no hay que confiarse. En si­tua­cio­nes delicadas, es mejor utilizar una he­rra­mie­n­ta es­pe­cia­li­za­da en borrar la in­fo­r­ma­ción de las imágenes.

Metadatos co­n­te­ni­dos en los vídeos digitales

Un archivo de vídeo suele estar co­n­s­ti­tui­do por un co­n­te­ne­dor que alberga diversos datos. Los datos primarios del archivo de vídeo son el contenido de vídeo y audio co­di­fi­ca­do. Y también hay otros metadatos:

  • Duración del vídeo
  • Velocidad de datos y di­me­n­sio­nes del vídeo
  • In­fo­r­ma­ción sobre el códec de audio y vídeo utilizado
  • Su­b­tí­tu­los, en algunos casos, en di­fe­re­n­tes idiomas

Metadatos asignados a archivos

Un archivo en un sistema digital consta de dos datos pri­n­ci­pa­les: el contenido del archivo y su nombre. Además, cada archivo tiene un conjunto de metadatos asociados. Los metadatos de los archivos son ge­s­tio­na­dos por el sistema operativo y también se conocen como “atributos de archivos”. A co­n­ti­nua­ción, se muestra un resumen de los metadatos de archivos más comunes:

Metadatos de archivos De­fi­ni­ción
Temporal Cuando se crea, modifica y abre por última vez
Ubicación Ruta del archivo en el sistema de archivos
Propiedad Pro­pie­ta­rio y grupo
Permisos de los archivos Leer, escribir, ejecutar; para el pro­pie­ta­rio, el grupo y otros

Además de los atributos de los archivos, algunos tipos de archivos incluyen metadatos es­pe­cí­fi­cos. Estos son ge­s­tio­na­dos por el programa de apli­ca­ción co­rre­s­po­n­die­n­te. Incluso con estos tipos de metadatos existe el riesgo de revelar in­fo­r­ma­ción co­n­fi­de­n­cial al tra­n­s­mi­ti­r­los.

Metadatos generados al enviar un correo ele­c­tró­ni­co

Un correo ele­c­tró­ni­co consta, de forma análoga a la clásica carta postal, de dos co­m­po­ne­n­tes pri­n­ci­pa­les:

El cuerpo contiene el mensaje a tra­n­s­mi­tir, que co­rre­s­po­n­de a la carta que se introduce en el sobre. La cabecera contiene las di­re­c­cio­nes del remitente y del de­s­ti­na­ta­rio, que desempeña la misma función que el sobre. En la cabecera, al igual que en el sobre, pueden fa­l­si­fi­car­se fá­ci­l­me­n­te algunos datos. De esta manera le puede parecer al de­s­ti­na­ta­rio que el correo ele­c­tró­ni­co proviene de otro remitente. Un truco utilizado a menudo para hacer spoofing (ataques de su­pla­n­ta­ción de identidad).

La cabecera del correo ele­c­tró­ni­co suele contener muchos más metadatos. Entre otros, se en­cue­n­tran los si­guie­n­tes:

  • Varias in­di­ca­cio­nes de tiempo
  • In­fo­r­ma­ción sobre el formato y cifrado del mensaje
  • Es­ta­cio­nes por las que pasó el correo ele­c­tró­ni­co durante la tra­n­s­mi­sión
  • Cla­si­fi­ca­ción del correo ele­c­tró­ni­co por parte de los filtros de spam
  • In­fo­r­ma­ción sobre si el correo ele­c­tró­ni­co fue analizado por un antivirus

Los metadatos de la cabecera del correo ele­c­tró­ni­co son escritos por el software del servidor y leídos por los programas de apli­ca­ción. La in­fo­r­ma­ción generada en el proceso revela mucho sobre un correo ele­c­tró­ni­co y el camino que ha seguido a través de Internet. Entre otras cosas, permite hacer va­lo­ra­cio­nes sobre la au­te­n­ti­ci­dad y la co­n­fi­de­n­cia­li­dad de un correo ele­c­tró­ni­co. Además, la cabecera puede contener el nombre del usuario al que le pertenece el di­s­po­si­ti­vo y revelar la ubicación desde la que se envió el correo ele­c­tró­ni­co.

Metadatos generados al visitar una página web

Una visita a un sitio web es, desde el punto de vista técnico, una lectura de un documento HTML. El navegador del usuario busca el documento en un servidor con la dirección es­pe­ci­fi­ca­da. Para ello se utiliza el protocolo HTTP o HTTPS.

Además del documento HTML pro­pia­me­n­te dicho, que se muestra en el navegador, se tra­n­s­mi­ten metadatos de­no­mi­na­dos cabeceras HTTP. Las cabeceras HTTP son similares a las cabeceras de los correos ele­c­tró­ni­cos. Contienen in­fo­r­ma­ción sobre el cifrado, la tra­n­s­mi­sión, la en­cri­p­ta­ción y la co­m­pre­sión de la conexión HTTP.

Además, durante la tra­n­s­fe­re­n­cia se generan metadatos que se almacenan en el servidor. Esto incluye los archivos de registro en los que se registran los accesos al servidor y que son ne­ce­sa­rios para analizar el archivo de registro. Se escribe una línea nueva en el archivo de registro por cada acceso. Por otra parte, el navegador suele enviar otras consultas al servidor DNS. Estas consultas también generan metadatos y, si es necesario, son al­ma­ce­na­dos y ana­li­za­dos por el operador del servidor.

Aunque suene confuso, además de la ya me­n­cio­na­da cabecera HTTP, también existe la cabecera HTML. Mientras que el primero se refiere a la conexión, el segundo contiene metadatos que describen el contenido del documento. Este es un ejemplo de respuesta del servidor HTTP. Las primeras líneas son la cabecera HTTP. A co­n­ti­nua­ción, el código fuente HTML con elementos de cabecera y cuerpo HTML:

HTTP/1.1 200 OK
Date: Mon, 01 Feb 2021 12:13:34 GMT
Content-Type: text/html; charset=UTF-8
Content-Length: 148
Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
Server: Apache/1.3.3.7 (Unix) (Red-Hat/Linux)
Accept-Ranges: bytes
Connection: close
<html>
    <head>
        <title>Página de ejemplo </title>
    </head>
    <body>
        <p>El texto legible para el usuario se encuentra en el cuerpo del documento </p>
    </body>
</html>

Im­po­r­ta­n­cia de los metadatos de páginas web para el marketing online y la op­ti­mi­za­ción de los motores de búsqueda

En esta sección, nos centramos en los metadatos que se en­cue­n­tran en un documento HTML. No incluimos los metadatos HTTP ya me­n­cio­na­dos, como pueden ser los metadatos de los archivos de registro. Los metadatos HTML se in­tro­du­cen, por lo general, en la cabecera del documento.

Muchos de los elementos uti­li­za­dos en la cabecera HTML facilitan la op­ti­mi­za­ción de los motores de búsqueda. Los bots de los motores de búsqueda exploran el contenido de un documento HTML y extraen e indexan la parte del cuerpo del HTML legible para el usuario. Además, hay metadatos es­pe­cí­fi­cos pensados ex­clu­si­va­me­n­te para los bots. A co­n­ti­nua­ción, di­s­ti­n­gui­mos entre las variantes “clásicas” y “modernas”.

Metadatos de páginas web con la variante clásica de cabecera HTML

En el título de la variante clásica de la cabecera HTML se en­cue­n­tran un montón de meta tags fu­n­da­me­n­ta­les. El usuario ve el título en un formato diferente. Suele mostrarse cerca del ma­r­ca­pá­gi­nas o el cabecero del navegador. El resto de '<meta>' etiquetas clásicas solo se usan para la op­ti­mi­za­ción de los motores de búsqueda. He aquí una tabla con los elementos de variante clásica más im­po­r­ta­n­tes de la cabecera HTML:

Etiqueta De­s­cri­p­ción Im­po­r­ta­n­cia
<title> Título del documento, aparece en los re­su­l­ta­dos de una búsqueda Crítica
<meta name="de­s­cri­p­tion"> De­s­cri­p­ción del documento, aparece en los re­su­l­ta­dos de una búsqueda Crítica
<meta name="keywords"> Palabras clave del documento, no aparecen en los re­su­l­ta­dos de una búsqueda Baja
<meta name="robots"> In­s­tru­c­cio­nes para los bots de los motores de búsqueda sobre como procesar el documento Crítica

Metadatos de páginas web con la variante moderna de la cabecera HTML

Además de los elementos clásicos de la cabecera HTML, hoy en día se utilizan muchos otros elementos para in­tro­du­cir metadatos en una página web. Los ope­ra­do­res de motores de búsqueda y las grandes empresas te­c­no­ló­gi­cas definen co­n­s­ta­n­te­me­n­te nuevos metadatos. Los elementos '' y '<link>' son ideales para ellos, ya que son am­plia­bles. He aquí una tabla de los elementos de la variante moderna más usados en las páginas web:

Etiqueta De­s­cri­p­ción Im­po­r­ta­n­cia
<link rel="canonical"> Enlace canónico para evitar contenido duplicado Crítica, en caso de haber contenido duplicado
<link rel="alternate" hreflang="de"> Es­pe­ci­fi­ca versiones del mismo documento en otros idiomas a través de hreflang Opcional
<meta property="og:…"> Open Graph para publicar en las redes sociales Opcional

Para el elemento '<meta>', se usa el atributo 'name' para es­pe­ci­fi­car el tipo de metadato. Para el elemento '<link>', se usa el atributo 'rel' de igual manera. De­pe­n­die­n­do de la norma es­ta­n­da­ri­za­da de metadatos que se usa, se pueden encontrar no­ta­cio­nes di­fe­re­n­tes para el elemento '<meta>'. Son estas:

Notación Norma es­ta­n­da­ri­za­da de Metadatos
<meta name=""> HTML5
<meta property=""> RDFa
<meta itemprop=""> HTML Microdata

Metadatos de páginas web definidos con Open Graph

Open Graph es un protocolo de­sa­rro­lla­do por Google para en­ri­que­cer un documento web con metadatos. Los datos de Open Graph pro­po­r­cio­nan in­fo­r­ma­ción que se muestra a modo de visión general cuando se comparte el documento en las redes sociales. De este modo, se pueden definir imágenes, títulos y textos de­s­cri­p­ti­vos op­ti­mi­za­dos. Esto tiene sentido, ya que, de­pe­n­die­n­do de la pla­ta­fo­r­ma, se aplican re­s­tri­c­cio­nes es­pe­cí­fi­cas en cuanto a la longitud del texto, las di­me­n­sio­nes de las imágenes, etc. El protocolo es muy utilizado por Facebook y Twitter. Aquí tienes un resumen de los metadatos ese­n­cia­les de Open Graph:

Metadatos de Open Graph Ex­pli­ca­ción
<meta property="og:title"> Título del objeto
<meta property="og:type"> El tipo de objeto, por ejemplo, imagen, documento web, vídeo, etc.
<meta property="og:image"> Una imagen que re­pre­se­n­ta el objeto
<meta property="og:url"> La URL canónica del objeto
Consejo

Si en­cue­n­tras errores al compartir tu contenido web en Facebook, el problema suele estar re­la­cio­na­do con una entrada in­co­rre­c­ta de Open Graph. En este caso, a veces ayuda un truco sencillo: entrar en tu cuenta de Facebook y utilizar Sharing Debugger. Esto le dirá a Facebook que vuelva a leer la in­fo­r­ma­ción de Open Graph.

Metadatos de páginas web definidos con rich cards

Además de Open Graph, las rich cards son otro formato de vi­sua­li­za­ción de metadatos de­sa­rro­lla­do por Google. Las rich cards en­ri­que­cen un documento web con metadatos. Con ellas se puede completar, por ejemplo, la página web de un re­s­tau­ra­n­te con in­fo­r­ma­ción sobre su ubicación geo­grá­fi­ca, precios, horarios de apertura, etc. La in­fo­r­ma­ción de las rich cards pueden ubicarse en la cabecera HTML o en el cuerpo HTML.

Té­c­ni­ca­me­n­te, las rich cards se obtienen del estándar de metadatos schema.org. Se utilizan varios formatos para enmarcar los metadatos. Además de los es­tá­n­da­res más antiguos RDFa y Microdata, ac­tua­l­me­n­te se usa sobre todo JSON-LD. El uso de JSON-LD está ofi­cia­l­me­n­te re­co­me­n­da­do por Google.

Ir al menú principal