Redes Neuronales Recurrentes Residuales para Aprender Representaciones Secuenciales
Autores: Yue, Boxuan; Fu, Junwei; Liang, Jun
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Redes Neuronales Recurrentes Residuales para Aprender Representaciones Secuenciales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Redes neuronales recurrentes
RNN
Problemas de gradiente
Estructura residual
LSTM
GRU
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las redes neuronales recurrentes (RNN) son eficientes en el modelado de secuencias para generación y clasificación, pero su entrenamiento se ve obstaculizado por los problemas de desvanecimiento y explosión del gradiente. En este artículo, reformulamos la unidad RNN para aprender las funciones residuales con referencia al estado oculto en lugar de los mecanismos de compuerta convencionales como la memoria a largo y corto plazo (LSTM) y la unidad recurrente con compuerta (GRU). La estructura residual tiene dos aspectos principales: en primer lugar, resuelve los problemas de desvanecimiento y explosión del gradiente para escalas distribuidas en el tiempo grandes; en segundo lugar, la estructura residual promueve las optimizaciones para las actualizaciones hacia atrás. En los experimentos, aplicamos modelado de lenguaje, clasificación de emociones y modelado polifónico para evaluar nuestra capa en comparación con las capas LSTM y GRU. Los resultados muestran que nuestra capa ofrece un rendimiento de vanguardia, supera a las capas LSTM y GRU en términos de velocidad y apoya una precisión competitiva con la de otros métodos.
Descripción
Las redes neuronales recurrentes (RNN) son eficientes en el modelado de secuencias para generación y clasificación, pero su entrenamiento se ve obstaculizado por los problemas de desvanecimiento y explosión del gradiente. En este artículo, reformulamos la unidad RNN para aprender las funciones residuales con referencia al estado oculto en lugar de los mecanismos de compuerta convencionales como la memoria a largo y corto plazo (LSTM) y la unidad recurrente con compuerta (GRU). La estructura residual tiene dos aspectos principales: en primer lugar, resuelve los problemas de desvanecimiento y explosión del gradiente para escalas distribuidas en el tiempo grandes; en segundo lugar, la estructura residual promueve las optimizaciones para las actualizaciones hacia atrás. En los experimentos, aplicamos modelado de lenguaje, clasificación de emociones y modelado polifónico para evaluar nuestra capa en comparación con las capas LSTM y GRU. Los resultados muestran que nuestra capa ofrece un rendimiento de vanguardia, supera a las capas LSTM y GRU en términos de velocidad y apoya una precisión competitiva con la de otros métodos.