Enfoque de Segmentación de Escenas Viales Basado en Transformadores Eficiente con Decodificación Guiada por Atención para Sistemas con Limitaciones de Memoria

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Enfoque de Segmentación de Escenas Viales Basado en Transformadores Eficiente con Decodificación Guiada por Atención para Sistemas con Limitaciones de Memoria

Autores: Lisauskas, Bartas; Maskeliunas, Rytis

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Enfoque de Segmentación de Escenas Viales Basado en Transformadores Eficiente con Decodificación Guiada por Atención para Sistemas con Limitaciones de Memoria

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Detección de objetos

Sistemas de visión por computadora

Vehículos autónomos

Segmentación de escenas de carretera

Estructura basada en transformadores

Mecanismos de fusión basados en atención

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones

La detección precisa de objetos y la comprensión del entorno son requisitos clave al aplicar sistemas de visión por computadora en las industrias automotriz o de robótica, especialmente con vehículos autónomos o robots autodirigidos. Una comprensión precisa de los usuarios de la carretera o de los obstáculos es esencial para evitar accidentes potenciales. Debido a la presencia de muchos objetos y la diversidad del entorno, la segmentación de la escena vial sigue siendo una tarea desafiante. En nuestro enfoque, se emplea una arquitectura basada en Transformer para la extracción robusta de características en el módulo de codificación. Además, hemos desarrollado un módulo de decodificación personalizado en el que implementamos mecanismos de fusión basados en atención para combinar características de manera efectiva. La modificación del decodificador está diseñada específicamente para mantener detalles espaciales finos y mejorar la comprensión del contexto global, diferenciando nuestro método de los enfoques convencionales que típicamente utilizan capas de proyección simples o decodificadores basados en consultas estándar. El modelo implementado consta de 17.2 millones de parámetros y logra un rendimiento competitivo, con una intersección media sobre la unión (mIoU) del 76.41% en el conjunto de validación de Cityscapes. Los resultados obtenidos indican la capacidad del modelo para capturar tanto el contexto global como los detalles espaciales finos que son críticos para la segmentación precisa de escenas urbanas. Además, el diseño liviano hace que el enfoque sea adecuado para su implementación en dispositivos con memoria limitada.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro