logo móvil
Contáctanos

Enfoque de Segmentación de Escenas Viales Basado en Transformadores Eficiente con Decodificación Guiada por Atención para Sistemas con Limitaciones de Memoria

Autores: Lisauskas, Bartas; Maskeliunas, Rytis

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Enfoque de Segmentación de Escenas Viales Basado en Transformadores Eficiente con Decodificación Guiada por Atención para Sistemas con Limitaciones de Memoria


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Detección de objetos
Sistemas de visión por computadora
Vehículos autónomos
Segmentación de escenas de carretera
Estructura basada en transformadores
Mecanismos de fusión basados en atención

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones


Descripción
La detección precisa de objetos y la comprensión del entorno son requisitos clave al aplicar sistemas de visión por computadora en las industrias automotriz o de robótica, especialmente con vehículos autónomos o robots autodirigidos. Una comprensión precisa de los usuarios de la carretera o de los obstáculos es esencial para evitar accidentes potenciales. Debido a la presencia de muchos objetos y la diversidad del entorno, la segmentación de la escena vial sigue siendo una tarea desafiante. En nuestro enfoque, se emplea una arquitectura basada en Transformer para la extracción robusta de características en el módulo de codificación. Además, hemos desarrollado un módulo de decodificación personalizado en el que implementamos mecanismos de fusión basados en atención para combinar características de manera efectiva. La modificación del decodificador está diseñada específicamente para mantener detalles espaciales finos y mejorar la comprensión del contexto global, diferenciando nuestro método de los enfoques convencionales que típicamente utilizan capas de proyección simples o decodificadores basados en consultas estándar. El modelo implementado consta de 17.2 millones de parámetros y logra un rendimiento competitivo, con una intersección media sobre la unión (mIoU) del 76.41% en el conjunto de validación de Cityscapes. Los resultados obtenidos indican la capacidad del modelo para capturar tanto el contexto global como los detalles espaciales finos que son críticos para la segmentación precisa de escenas urbanas. Además, el diseño liviano hace que el enfoque sea adecuado para su implementación en dispositivos con memoria limitada.

Otros recursos que podrían interesarte

Temas Virtualpro