LactNet: una red de segmentación semántica en tiempo real y ligera basada en una red neuronal convolucional agregada y un transformador
Autores: Zhang, Xiangyue; Li, Hexiao; Ru, Jingyu; Ji, Peng; Wu, Chengdong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
LactNet: una red de segmentación semántica en tiempo real y ligera basada en una red neuronal convolucional agregada y un transformador
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Transformadores
Cnns
Segmentación semántica
LACTNet
Dependencias de características
Características espaciales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
Los Transformers han demostrado una ventaja significativa sobre las CNN en la modelización de dependencias a larga distancia, lo que ha llevado a prestar una atención creciente a su aplicación en tareas de segmentación semántica. En el presente trabajo, se introduce un nuevo modelo de segmentación semántica, LACTNet, que combina de manera sinérgica las arquitecturas de Transformer y CNN para el procesamiento en tiempo real de características contextuales locales y globales. LACTNet está diseñado con un Transformer ligero, que integra una red de avance convolucional con compuertas especialmente diseñada, para establecer dependencias de características en regiones distantes. Se diseña un módulo de Cuello de Botella de Características Promedio Ligero (LAFB) para capturar de manera efectiva información detallada espacial dentro de las características, mejorando así la precisión de la segmentación. Para abordar el problema de la pérdida de características espaciales en el decodificador, se emplea un enfoque de conexión larga de salto a través del Módulo de Mejora de Fusión de Características (FFEM) diseñado, que mejora la integridad de las características espaciales y la capacidad de interacción de características en el decodificador. LACTNet se evalúa en dos conjuntos de datos, logrando una precisión de segmentación del 74.8% mIoU y una velocidad de cuadros de 90 FPS en el conjunto de datos de Cityscapes, y una precisión de segmentación del 71.8% mIoU con una velocidad de cuadros de 126 FPS en el conjunto de datos de CamVid.
Descripción
Los Transformers han demostrado una ventaja significativa sobre las CNN en la modelización de dependencias a larga distancia, lo que ha llevado a prestar una atención creciente a su aplicación en tareas de segmentación semántica. En el presente trabajo, se introduce un nuevo modelo de segmentación semántica, LACTNet, que combina de manera sinérgica las arquitecturas de Transformer y CNN para el procesamiento en tiempo real de características contextuales locales y globales. LACTNet está diseñado con un Transformer ligero, que integra una red de avance convolucional con compuertas especialmente diseñada, para establecer dependencias de características en regiones distantes. Se diseña un módulo de Cuello de Botella de Características Promedio Ligero (LAFB) para capturar de manera efectiva información detallada espacial dentro de las características, mejorando así la precisión de la segmentación. Para abordar el problema de la pérdida de características espaciales en el decodificador, se emplea un enfoque de conexión larga de salto a través del Módulo de Mejora de Fusión de Características (FFEM) diseñado, que mejora la integridad de las características espaciales y la capacidad de interacción de características en el decodificador. LACTNet se evalúa en dos conjuntos de datos, logrando una precisión de segmentación del 74.8% mIoU y una velocidad de cuadros de 90 FPS en el conjunto de datos de Cityscapes, y una precisión de segmentación del 71.8% mIoU con una velocidad de cuadros de 126 FPS en el conjunto de datos de CamVid.