Análisis de la desaparición del gradiente de las RNN y comparación de rendimiento
Autores: Noh, Seol-Hyun
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Análisis de la desaparición del gradiente de las RNN y comparación de rendimiento
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Red neuronal recurrente
LSTM
GRU
Análisis de datos de series temporales
Precisión de validación
Descenso de gradiente
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Una red neuronal recurrente (RNN) combina datos de entrada de longitud variable con un estado oculto que depende de pasos de tiempo anteriores para generar datos de salida. Las RNN se han utilizado ampliamente en el análisis de datos de series temporales, y se han propuesto varios algoritmos de RNN, como la RNN estándar, la memoria a largo y corto plazo (LSTM) y las unidades recurrentes con compuertas (GRU). En particular, se ha demostrado experimentalmente que LSTM y GRU tienen una mayor precisión de validación y precisión de predicción que la RNN estándar. La capacidad de aprendizaje es una medida de la efectividad del gradiente de la información de error que se retropropagará. Este estudio proporcionó una base teórica y experimental para el resultado de que LSTM y GRU tienen un descenso de gradiente más eficiente que la RNN estándar al analizar y experimentar con la desaparición del gradiente de la RNN estándar, LSTM y GRU. Como resultado, LSTM y GRU son robustos ante la degradación del descenso de gradiente incluso cuando LSTM y GRU aprenden datos de entrada de largo alcance, lo que significa que la capacidad de aprendizaje de LSTM y GRU es mayor que la de la RNN estándar al aprender datos de entrada de largo alcance. Por lo tanto, LSTM y GRU tienen una mayor precisión de validación y precisión de predicción que la RNN estándar. Además, se verificó si los resultados experimentales de los modelos de predicción de niveles de ríos, modelos de predicción de generación de energía solar y modelos de señales de voz utilizando la RNN estándar, LSTM y GRU son consistentes con los resultados del análisis de la desaparición del gradiente.
Descripción
Una red neuronal recurrente (RNN) combina datos de entrada de longitud variable con un estado oculto que depende de pasos de tiempo anteriores para generar datos de salida. Las RNN se han utilizado ampliamente en el análisis de datos de series temporales, y se han propuesto varios algoritmos de RNN, como la RNN estándar, la memoria a largo y corto plazo (LSTM) y las unidades recurrentes con compuertas (GRU). En particular, se ha demostrado experimentalmente que LSTM y GRU tienen una mayor precisión de validación y precisión de predicción que la RNN estándar. La capacidad de aprendizaje es una medida de la efectividad del gradiente de la información de error que se retropropagará. Este estudio proporcionó una base teórica y experimental para el resultado de que LSTM y GRU tienen un descenso de gradiente más eficiente que la RNN estándar al analizar y experimentar con la desaparición del gradiente de la RNN estándar, LSTM y GRU. Como resultado, LSTM y GRU son robustos ante la degradación del descenso de gradiente incluso cuando LSTM y GRU aprenden datos de entrada de largo alcance, lo que significa que la capacidad de aprendizaje de LSTM y GRU es mayor que la de la RNN estándar al aprender datos de entrada de largo alcance. Por lo tanto, LSTM y GRU tienen una mayor precisión de validación y precisión de predicción que la RNN estándar. Además, se verificó si los resultados experimentales de los modelos de predicción de niveles de ríos, modelos de predicción de generación de energía solar y modelos de señales de voz utilizando la RNN estándar, LSTM y GRU son consistentes con los resultados del análisis de la desaparición del gradiente.