logo móvil
Contáctanos

LactNet: una red de segmentación semántica en tiempo real y ligera basada en una red neuronal convolucional agregada y un transformador

Autores: Zhang, Xiangyue; Li, Hexiao; Ru, Jingyu; Ji, Peng; Wu, Chengdong

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

LactNet: una red de segmentación semántica en tiempo real y ligera basada en una red neuronal convolucional agregada y un transformador


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Transformadores
Cnns
Segmentación semántica
LACTNet
Dependencias de características
Características espaciales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones


Descripción
Los Transformers han demostrado una ventaja significativa sobre las CNN en la modelización de dependencias a larga distancia, lo que ha llevado a prestar una atención creciente a su aplicación en tareas de segmentación semántica. En el presente trabajo, se introduce un nuevo modelo de segmentación semántica, LACTNet, que combina de manera sinérgica las arquitecturas de Transformer y CNN para el procesamiento en tiempo real de características contextuales locales y globales. LACTNet está diseñado con un Transformer ligero, que integra una red de avance convolucional con compuertas especialmente diseñada, para establecer dependencias de características en regiones distantes. Se diseña un módulo de Cuello de Botella de Características Promedio Ligero (LAFB) para capturar de manera efectiva información detallada espacial dentro de las características, mejorando así la precisión de la segmentación. Para abordar el problema de la pérdida de características espaciales en el decodificador, se emplea un enfoque de conexión larga de salto a través del Módulo de Mejora de Fusión de Características (FFEM) diseñado, que mejora la integridad de las características espaciales y la capacidad de interacción de características en el decodificador. LACTNet se evalúa en dos conjuntos de datos, logrando una precisión de segmentación del 74.8% mIoU y una velocidad de cuadros de 90 FPS en el conjunto de datos de Cityscapes, y una precisión de segmentación del 71.8% mIoU con una velocidad de cuadros de 126 FPS en el conjunto de datos de CamVid.

Otros recursos que podrían interesarte

Temas Virtualpro