Fusión Evidencial Consciente de la Incertidumbre para la Detección de Objetos Multi-Modales en la Conducción Autónoma
Autores: Yang, Qihang; Zhao, Yang; Cheng, Hong
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Fusión Evidencial Consciente de la Incertidumbre para la Detección de Objetos Multi-Modales en la Conducción Autónoma
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Tecnologías de conducción autónoma
Sistemas de detección de objetos
Estrategias de fusión multimodal
Marco de fusión tardía
Mecanismo de cuantificación de incertidumbre
Resultados de detección de objetos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El avance de las tecnologías de conducción autónoma requiere el desarrollo de sistemas de detección de objetos sofisticados capaces de integrar datos de sensores heterogéneos para superar las limitaciones inherentes de los enfoques unimodales. Si bien las estrategias de fusión multimodal ofrecen soluciones prometedoras, enfrentan desafíos significativos, como las complejidades de alineación de datos en la fusión temprana y las cargas computacionales asociadas con los riesgos de sobreajuste en las metodologías de fusión profunda. Para abordar estos problemas, proponemos un marco de Fusión Tardía Multimodal Multiclase (MMLF) que opera a nivel de decisión. Esta estrategia de fusión tardía preserva la integridad arquitectónica de los detectores individuales y facilita la integración flexible de diversas modalidades. Una innovación clave de nuestro enfoque es la incorporación de un mecanismo de cuantificación de incertidumbre teórica de la evidencia, basado en la teoría de Dempster-Shafer, que proporciona una medida de confianza matemáticamente fundamentada. Evaluaciones exhaustivas fuera de línea en el conjunto de datos de referencia KITTI demuestran la efectividad de nuestro marco, mostrando mejoras sustanciales en el rendimiento a través de múltiples métricas (incluyendo detección 2D, detección 3D y tareas de vista de pájaro) mientras se logran reducciones significativas en las estimaciones de incertidumbre, aproximadamente del 77% para automóviles, 76% para peatones y 67% para ciclistas. Estos resultados mejoran colectivamente tanto la fiabilidad como la interpretabilidad de los resultados de detección de objetos. Este trabajo proporciona una solución versátil y escalable para la detección de objetos multimodal que aborda de manera efectiva los desafíos críticos en las aplicaciones de conducción autónoma.
Descripción
El avance de las tecnologías de conducción autónoma requiere el desarrollo de sistemas de detección de objetos sofisticados capaces de integrar datos de sensores heterogéneos para superar las limitaciones inherentes de los enfoques unimodales. Si bien las estrategias de fusión multimodal ofrecen soluciones prometedoras, enfrentan desafíos significativos, como las complejidades de alineación de datos en la fusión temprana y las cargas computacionales asociadas con los riesgos de sobreajuste en las metodologías de fusión profunda. Para abordar estos problemas, proponemos un marco de Fusión Tardía Multimodal Multiclase (MMLF) que opera a nivel de decisión. Esta estrategia de fusión tardía preserva la integridad arquitectónica de los detectores individuales y facilita la integración flexible de diversas modalidades. Una innovación clave de nuestro enfoque es la incorporación de un mecanismo de cuantificación de incertidumbre teórica de la evidencia, basado en la teoría de Dempster-Shafer, que proporciona una medida de confianza matemáticamente fundamentada. Evaluaciones exhaustivas fuera de línea en el conjunto de datos de referencia KITTI demuestran la efectividad de nuestro marco, mostrando mejoras sustanciales en el rendimiento a través de múltiples métricas (incluyendo detección 2D, detección 3D y tareas de vista de pájaro) mientras se logran reducciones significativas en las estimaciones de incertidumbre, aproximadamente del 77% para automóviles, 76% para peatones y 67% para ciclistas. Estos resultados mejoran colectivamente tanto la fiabilidad como la interpretabilidad de los resultados de detección de objetos. Este trabajo proporciona una solución versátil y escalable para la detección de objetos multimodal que aborda de manera efectiva los desafíos críticos en las aplicaciones de conducción autónoma.