Enfoque de Segmentación de Escenas Viales Basado en Transformadores Eficiente con Decodificación Guiada por Atención para Sistemas con Limitaciones de Memoria
Autores: Lisauskas, Bartas; Maskeliunas, Rytis
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Enfoque de Segmentación de Escenas Viales Basado en Transformadores Eficiente con Decodificación Guiada por Atención para Sistemas con Limitaciones de Memoria
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Detección de objetos
Sistemas de visión por computadora
Vehículos autónomos
Segmentación de escenas de carretera
Estructura basada en transformadores
Mecanismos de fusión basados en atención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
La detección precisa de objetos y la comprensión del entorno son requisitos clave al aplicar sistemas de visión por computadora en las industrias automotriz o de robótica, especialmente con vehículos autónomos o robots autodirigidos. Una comprensión precisa de los usuarios de la carretera o de los obstáculos es esencial para evitar accidentes potenciales. Debido a la presencia de muchos objetos y la diversidad del entorno, la segmentación de la escena vial sigue siendo una tarea desafiante. En nuestro enfoque, se emplea una arquitectura basada en Transformer para la extracción robusta de características en el módulo de codificación. Además, hemos desarrollado un módulo de decodificación personalizado en el que implementamos mecanismos de fusión basados en atención para combinar características de manera efectiva. La modificación del decodificador está diseñada específicamente para mantener detalles espaciales finos y mejorar la comprensión del contexto global, diferenciando nuestro método de los enfoques convencionales que típicamente utilizan capas de proyección simples o decodificadores basados en consultas estándar. El modelo implementado consta de 17.2 millones de parámetros y logra un rendimiento competitivo, con una intersección media sobre la unión (mIoU) del 76.41% en el conjunto de validación de Cityscapes. Los resultados obtenidos indican la capacidad del modelo para capturar tanto el contexto global como los detalles espaciales finos que son críticos para la segmentación precisa de escenas urbanas. Además, el diseño liviano hace que el enfoque sea adecuado para su implementación en dispositivos con memoria limitada.
Descripción
La detección precisa de objetos y la comprensión del entorno son requisitos clave al aplicar sistemas de visión por computadora en las industrias automotriz o de robótica, especialmente con vehículos autónomos o robots autodirigidos. Una comprensión precisa de los usuarios de la carretera o de los obstáculos es esencial para evitar accidentes potenciales. Debido a la presencia de muchos objetos y la diversidad del entorno, la segmentación de la escena vial sigue siendo una tarea desafiante. En nuestro enfoque, se emplea una arquitectura basada en Transformer para la extracción robusta de características en el módulo de codificación. Además, hemos desarrollado un módulo de decodificación personalizado en el que implementamos mecanismos de fusión basados en atención para combinar características de manera efectiva. La modificación del decodificador está diseñada específicamente para mantener detalles espaciales finos y mejorar la comprensión del contexto global, diferenciando nuestro método de los enfoques convencionales que típicamente utilizan capas de proyección simples o decodificadores basados en consultas estándar. El modelo implementado consta de 17.2 millones de parámetros y logra un rendimiento competitivo, con una intersección media sobre la unión (mIoU) del 76.41% en el conjunto de validación de Cityscapes. Los resultados obtenidos indican la capacidad del modelo para capturar tanto el contexto global como los detalles espaciales finos que son críticos para la segmentación precisa de escenas urbanas. Además, el diseño liviano hace que el enfoque sea adecuado para su implementación en dispositivos con memoria limitada.