Red convolucional progresiva para el aprendizaje incremental
Autores: Siddiqui, Zahid Ali; Park, Unsang
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Red convolucional progresiva para el aprendizaje incremental
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Novedosa técnica de aprendizaje incremental
Problema de olvido catastrófico
Red neuronal profunda progresiva
Tarea de clasificación de imágenes
Conocimiento previo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
En este documento, presentamos una nueva técnica de aprendizaje incremental para resolver el problema del olvido catastrófico observado en las arquitecturas de CNN. Utilizamos una red neuronal profunda progresiva para aprender incrementalmente nuevas clases mientras se mantiene el rendimiento de la red sin cambios en las clases antiguas. El entrenamiento incremental requiere que entrenemos la red solo para las nuevas clases y ajustemos la capa totalmente conectada final, sin necesidad de volver a entrenar toda la red, lo que reduce significativamente el tiempo de entrenamiento. Evaluamos ampliamente la arquitectura propuesta en la tarea de clasificación de imágenes utilizando conjuntos de datos Fashion MNIST, CIFAR-100 e ImageNet-1000. Los resultados experimentales muestran que la arquitectura de red propuesta no solo alivia el olvido catastrófico, sino que también aprovecha el conocimiento previo a través de conexiones laterales a clases y características previamente aprendidas. Además, el esquema propuesto es fácilmente escalable y no requiere cambios estructurales en la red entrenada en la tarea anterior, lo cual son propiedades altamente requeridas en sistemas integrados.
Descripción
En este documento, presentamos una nueva técnica de aprendizaje incremental para resolver el problema del olvido catastrófico observado en las arquitecturas de CNN. Utilizamos una red neuronal profunda progresiva para aprender incrementalmente nuevas clases mientras se mantiene el rendimiento de la red sin cambios en las clases antiguas. El entrenamiento incremental requiere que entrenemos la red solo para las nuevas clases y ajustemos la capa totalmente conectada final, sin necesidad de volver a entrenar toda la red, lo que reduce significativamente el tiempo de entrenamiento. Evaluamos ampliamente la arquitectura propuesta en la tarea de clasificación de imágenes utilizando conjuntos de datos Fashion MNIST, CIFAR-100 e ImageNet-1000. Los resultados experimentales muestran que la arquitectura de red propuesta no solo alivia el olvido catastrófico, sino que también aprovecha el conocimiento previo a través de conexiones laterales a clases y características previamente aprendidas. Además, el esquema propuesto es fácilmente escalable y no requiere cambios estructurales en la red entrenada en la tarea anterior, lo cual son propiedades altamente requeridas en sistemas integrados.