Bidirectional grid long short-term memory (BiGridLSTM): un método para abordar la sensibilidad al contexto y la desaparición del gradiente
Autores: Fei, Hongxiao; Tan, Fengyun
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Bidirectional grid long short-term memory (BiGridLSTM): un método para abordar la sensibilidad al contexto y la desaparición del gradiente
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Red neuronal recurrente
Secuencia temporal
Memoria a largo plazo en cuadrícula
Desvanecimiento del gradiente
Memoria a largo plazo en cuadrícula bidireccional
Sensibilidad al contexto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
La Red Neuronal Recurrente (RNN) utiliza información de tiempo que cambia dinámicamente a través de ciclos de tiempo, por lo que es muy adecuada para tareas con características de secuencia de tiempo. Sin embargo, con el aumento del número de capas, se produce el problema del desvanecimiento del gradiente en la RNN. La Red Neuronal Recurrente Grid Long Short-Term Memory (GridLSTM) puede aliviar este problema en dos dimensiones aprovechando las dos dimensiones calculadas en el tiempo y la profundidad. Además, la tarea de secuencia de tiempo está relacionada con la información del momento actual antes y después. En este documento, proponemos un método que tiene en cuenta la sensibilidad al contexto y los problemas de gradiente, a saber, la Red Neuronal Recurrente Bidireccional Grid Long Short-Term Memory (BiGridLSTM). Este modelo no solo aprovecha la arquitectura de cuadrícula, sino que también captura información alrededor del momento actual. Un gran número de experimentos en el conjunto de datos LibriSpeech muestran que BiGridLSTM es superior a otros modelos LSTM profundos y modelos LSTM unidireccionales, y, en comparación con GridLSTM, obtiene aproximadamente un 26 por ciento de mejora en ganancia.
Descripción
La Red Neuronal Recurrente (RNN) utiliza información de tiempo que cambia dinámicamente a través de ciclos de tiempo, por lo que es muy adecuada para tareas con características de secuencia de tiempo. Sin embargo, con el aumento del número de capas, se produce el problema del desvanecimiento del gradiente en la RNN. La Red Neuronal Recurrente Grid Long Short-Term Memory (GridLSTM) puede aliviar este problema en dos dimensiones aprovechando las dos dimensiones calculadas en el tiempo y la profundidad. Además, la tarea de secuencia de tiempo está relacionada con la información del momento actual antes y después. En este documento, proponemos un método que tiene en cuenta la sensibilidad al contexto y los problemas de gradiente, a saber, la Red Neuronal Recurrente Bidireccional Grid Long Short-Term Memory (BiGridLSTM). Este modelo no solo aprovecha la arquitectura de cuadrícula, sino que también captura información alrededor del momento actual. Un gran número de experimentos en el conjunto de datos LibriSpeech muestran que BiGridLSTM es superior a otros modelos LSTM profundos y modelos LSTM unidireccionales, y, en comparación con GridLSTM, obtiene aproximadamente un 26 por ciento de mejora en ganancia.