La long short-term memory (LSTM) o memoria a corto-largo plazo es una forma de entrenar redes neu­ro­na­les y almacenar in­fo­r­ma­ción im­po­r­ta­n­te a largo plazo. Esta te­c­no­lo­gía utiliza una memoria a corto plazo y otra a largo plazo y es de crucial im­po­r­ta­n­cia para el de­sa­rro­llo de la in­te­li­ge­n­cia ar­ti­fi­cial.

¿Qué es la long short-term memory (LSTM)?

La memoria a corto-largo plazo es una técnica in­fo­r­má­ti­ca que se utiliza para almacenar in­fo­r­ma­ción dentro de una red neuronal durante un periodo de tiempo más largo. Esto es es­pe­cia­l­me­n­te im­po­r­ta­n­te en el pro­ce­sa­mie­n­to de datos se­cue­n­cia­les. La memoria a corto-largo plazo permite a la red acceder a eventos an­te­rio­res y tenerlos en cuenta para nuevos cálculos. Esto la distingue en pa­r­ti­cu­lar de las Redes Neu­ro­na­les Re­cu­rre­n­tes (RNN) o puede co­m­ple­me­n­tar­las en el mejor de los casos. En lugar de una simple “memoria a corto plazo”, la LSTM dispone de una “memoria a largo plazo” adicional en la que se almacena la in­fo­r­ma­ción se­le­c­cio­na­da durante un periodo de tiempo más largo.

Por tanto, las redes con memoria a corto-largo plazo pueden almacenar in­fo­r­ma­ción durante largos periodos de tiempo y reconocer así de­pe­n­de­n­cias a largo plazo. Esto es es­pe­cia­l­me­n­te im­po­r­ta­n­te en el campo del apre­n­di­za­je profundo y la in­te­li­ge­n­cia ar­ti­fi­cial o IA. La base de este proceso son las llamadas puertas o “gates”, del inglés, cuyo fu­n­cio­na­mie­n­to se explica con más detalle más adelante en este artículo. Las redes pro­po­r­cio­nan modelos efi­cie­n­tes de pre­di­c­ción y pro­ce­sa­mie­n­to basados en datos de series te­m­po­ra­les.

He­rra­mie­n­tas de IA
Aprovecha al máximo la in­te­li­ge­n­cia ar­ti­fi­cial
  • Crea tu página web en tiempo récord
  • Impulsa tu negocio gracias al marketing por IA
  • Ahorra tiempo y obtén mejores re­su­l­ta­dos

¿De qué elementos consta una celda LSTM?

Una celda que dispone de long short-term memory (LSTM) consta de elementos que brindan diversas opciones a la red. Esta debe tener la capacidad de almacenar in­fo­r­ma­ción durante un largo período de tiempo y vi­n­cu­lar­la con nueva in­fo­r­ma­ción cuando sea necesario. Al mismo tiempo, es crucial que la celda elimine de forma autónoma el co­no­ci­mie­n­to irre­le­va­n­te o des­ac­tua­li­za­do de su “memoria”. Por ello, está formada por cuatro co­m­po­ne­n­tes di­fe­re­n­tes:

  • Input Gate: la puerta de entrada decide qué in­fo­r­ma­ción nueva se almacena en la memoria y de qué forma.
  • Forget Gate: la “puerta del olvido” determina qué in­fo­r­ma­ción debe pe­r­ma­ne­cer en una celda y cuál debe ser eliminada.
  • Output Gate: la puerta de salida determina cómo se deben emitir los valores de una celda. La decisión se basa en el estado actual y en la in­fo­r­ma­ción de entrada co­rre­s­po­n­die­n­te.
  • Cell State o estado de la celda: este co­m­po­ne­n­te sigue una lógica de conexión propia que regula cómo in­ter­ac­túan los otros co­m­po­ne­n­tes y cómo se gestionan los flujos de in­fo­r­ma­ción y los procesos de al­ma­ce­na­mie­n­to.

¿Cómo funciona la memoria a corto-largo plazo?

De forma similar a la ya me­n­cio­na­da Red Neuronal Re­cu­rre­n­te o a la red neuronal de pro­pa­ga­ción, también conocida como Red Neuronal Fee­d­fo­r­wa­rd (FNN), más simple que la primera, las celdas con long short-term memory también operan en capas. Sin embargo, a di­fe­re­n­cia de otras redes, almacenan in­fo­r­ma­ción durante largos periodos de tiempo y pueden pro­ce­sar­la o re­cu­pe­rar­la de manera posterior. Para ello, cada celda LSTM utiliza las tres puertas o gates antes me­n­cio­na­das, así como una especie de memoria a corto plazo y una memoria a largo plazo.

  • La memoria a corto plazo, es decir, la memoria en la que se guardan te­m­po­ra­l­me­n­te las in­fo­r­ma­cio­nes de pasos de cálculo an­te­rio­res, también es conocida en otras redes. En el contexto de la long short-term memory se denomina Hidden State o estado oculto. Sin embargo, a di­fe­re­n­cia de otras redes, una celda LSTM también puede retener in­fo­r­ma­ción a largo plazo. Esta in­fo­r­ma­ción se almacena en el llamado estado de la celda (Cell State en inglés). La nueva in­fo­r­ma­ción pasa entonces a través de las tres puertas.
  • En la Input Gate o puerta de entrada, la entrada actual se mu­l­ti­pli­ca por el Hidden State (estado oculto) y la po­n­de­ra­ción del último ciclo. De este modo, la puerta de entrada decide el valor de la nueva entrada. La in­fo­r­ma­ción im­po­r­ta­n­te se añade entonces al estado de la celda actual, co­n­vi­r­tié­n­do­se así en el nuevo estado de la celda.
  • La Forget Gate o puerta del olvido decide qué in­fo­r­ma­ción se utiliza y cuál se elimina. Para ello, se tienen en cuenta el último estado oculto y la entrada actual. Esta decisión se toma mediante una función sigmoide (función en forma de S), que genera valores entre 0 y 1. Un valor de 0 significa que la in­fo­r­ma­ción anterior se olvida, mientras que un valor de 1 significa que la in­fo­r­ma­ción anterior se conserva como estado actual. El resultado se mu­l­ti­pli­ca por el estado de la celda actual. Por tanto, los valores con 0 se descartan.
  • El resultado final se calcula en la Output Gate o puerta de salida. Para ello se utiliza el estado oculto y la función sigmoide. A co­n­ti­nua­ción, el estado de la celda se activa con una función tanh (tangente hi­pe­r­bó­li­ca) y se mu­l­ti­pli­ca para de­te­r­mi­nar qué in­fo­r­ma­ción debe pasar por la puerta de salida.

¿Qué di­fe­re­n­tes ar­qui­te­c­tu­ras existen?

Aunque este modo de fu­n­cio­na­mie­n­to es similar para todas las redes con memoria a corto-largo plazo, a veces existen di­fe­re­n­cias si­g­ni­fi­ca­ti­vas en la ar­qui­te­c­tu­ra de las variantes de LSTM. Por ejemplo, se utilizan mucho las llamadas peephole LSTM o LSTM con mirilla, que deben su nombre al hecho de que las puertas in­di­vi­dua­les pueden observar el estado de la celda co­rre­s­po­n­die­n­te. Una al­te­r­na­ti­va son las peephole co­n­vo­lu­tio­nal LSTM, que utilizan la co­n­vo­lu­ción discreta además de la mu­l­ti­pli­ca­ción matricial para calcular la actividad de una neurona.

¿Cuáles son las apli­ca­cio­nes más im­po­r­ta­n­tes de la long short-term memory?

En la ac­tua­li­dad, numerosas apli­ca­cio­nes se basan total o pa­r­cia­l­me­n­te en redes neu­ro­na­les con memoria a corto-largo plazo. Los ámbitos de apli­ca­ción son muy variados, pero esta te­c­no­lo­gía co­n­tri­bu­ye de manera es­pe­cia­l­me­n­te valiosa en las si­guie­n­tes áreas:

  • Ge­ne­ra­ción au­to­ma­ti­za­da de textos
  • Análisis de datos de series te­m­po­ra­les
  • Re­co­no­ci­mie­n­to de voz
  • Previsión de la evolución de los mercados bu­r­sá­ti­les
  • Co­m­po­si­ción

La long short-term memory también se utiliza para la ide­n­ti­fi­ca­ción de anomalías, por ejemplo, en caso de intentos de fraude o ataques a redes. Las apli­ca­cio­nes co­rre­s­po­n­die­n­tes también pueden re­co­me­n­dar medios como películas, series, grupos musicales o libros basándose en los datos de usuarios o analizar vídeos, imágenes o canciones. Es una forma sencilla no solo de aumentar la seguridad, sino también de reducir co­n­si­de­ra­ble­me­n­te los costes.

Numerosas grandes empresas utilizan la memoria a corto-largo plazo para sus servicios y productos. Google utiliza las redes co­rre­s­po­n­die­n­tes para sus sistemas de asi­s­te­n­cia in­te­li­ge­n­tes, el programa de tra­du­c­ción Google Translate, el software de juegos AlphaGo y el re­co­no­ci­mie­n­to de voz en los sma­r­t­pho­nes. Los dos asi­s­te­n­tes de voz Siri (Apple) y Alexa (Amazon) también se basan en la long short-term memory, al igual que la función de au­to­co­m­ple­ta­do del teclado de Apple.

Ir al menú principal