Algoritmo de detección de objetos de conjunto semiabierto aprovechado por modelos de lenguaje grandes multimodales
Autores: Wu, Kewei; Wang, Yiran; He, Xiaogang; Yan, Jinyu; Guo, Yang; Jiang, Zhuqing; Zhang, Xing; Wang, Wei; Xiong, Yongping; Men, Aidong; Xiao, Li
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Algoritmo de detección de objetos de conjunto semiabierto aprovechado por modelos de lenguaje grandes multimodales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Detección de objetos
Modelos de conjunto cerrado
Modelos de conjunto abierto
Precisión de detección
Interpretabilidad
Modelos de lenguaje multimodal grandes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
Actualmente, los modelos de detección de objetos de conjunto cerrado representados por YOLO están ampliamente desplegados en el campo industrial. Sin embargo, estos modelos de conjunto cerrado carecen de suficiente capacidad de ajuste para objetos fácilmente confundidos en escenarios de detección complejos. Los modelos de detección de objetos de conjunto abierto, como GroundingDINO, amplían el rango de detección hasta cierto punto, pero aún tienen una brecha en la precisión de detección en comparación con los modelos de detección de conjunto cerrado y no pueden cumplir con los requisitos de detección de alta precisión en aplicaciones prácticas. Además, las tecnologías de detección existentes también son insuficientes en cuanto a interpretabilidad, lo que dificulta mostrar claramente a los usuarios la base y el proceso de juicio de los resultados de detección, lo que hace que los usuarios duden de la confianza y aplicación de los resultados de detección. Basándonos en las deficiencias anteriores, proponemos un nuevo algoritmo de detección de objetos basado en modelos de lenguaje grandes multimodales que mejora significativamente el efecto de detección de los modelos de detección de objetos de conjunto cerrado para tareas de límites más difíciles, asegurando la precisión de detección, logrando así un algoritmo de detección de objetos de conjunto semiabierto. Tiene mejoras significativas en precisión e interpretabilidad bajo la verificación de siete escenarios comunes de tráfico y producción de seguridad.
Descripción
Actualmente, los modelos de detección de objetos de conjunto cerrado representados por YOLO están ampliamente desplegados en el campo industrial. Sin embargo, estos modelos de conjunto cerrado carecen de suficiente capacidad de ajuste para objetos fácilmente confundidos en escenarios de detección complejos. Los modelos de detección de objetos de conjunto abierto, como GroundingDINO, amplían el rango de detección hasta cierto punto, pero aún tienen una brecha en la precisión de detección en comparación con los modelos de detección de conjunto cerrado y no pueden cumplir con los requisitos de detección de alta precisión en aplicaciones prácticas. Además, las tecnologías de detección existentes también son insuficientes en cuanto a interpretabilidad, lo que dificulta mostrar claramente a los usuarios la base y el proceso de juicio de los resultados de detección, lo que hace que los usuarios duden de la confianza y aplicación de los resultados de detección. Basándonos en las deficiencias anteriores, proponemos un nuevo algoritmo de detección de objetos basado en modelos de lenguaje grandes multimodales que mejora significativamente el efecto de detección de los modelos de detección de objetos de conjunto cerrado para tareas de límites más difíciles, asegurando la precisión de detección, logrando así un algoritmo de detección de objetos de conjunto semiabierto. Tiene mejoras significativas en precisión e interpretabilidad bajo la verificación de siete escenarios comunes de tráfico y producción de seguridad.