Diseño de Detector de Objetos UAV Automatizado Usando Búsqueda de Arquitectura Guiada por Modelos de Lenguaje Grande
Autores: Kong, Fei; Shan, Xiaohan; Hu, Yanwei; Li, Jianmin
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Diseño de Detector de Objetos UAV Automatizado Usando Búsqueda de Arquitectura Guiada por Modelos de Lenguaje Grande
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Búsqueda de arquitectura neuronal
Eficiente
Modelos de percepción robustos
UAV
Aplicaciones basadas en drones
PhaseNAS
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La Búsqueda de Arquitectura Neural (NAS) es crítica para desarrollar modelos de percepción eficientes y robustos para aplicaciones basadas en UAV y drones, donde la detección de objetos pequeños en tiempo real y las limitaciones computacionales son desafíos importantes. Los métodos NAS existentes, incluidas las enfoques recientes que aprovechan grandes modelos de lenguaje (LLMs), a menudo sufren de asignación de recursos estática y generación de arquitecturas ambiguas, lo que limita su efectividad en escenarios aéreos dinámicos. En este estudio, proponemos PhaseNAS, un marco NAS impulsado por LLM adaptativo diseñado para tareas de percepción de drones. PhaseNAS ajusta dinámicamente la capacidad de LLM a través de las fases de exploración y refinamiento, e introduce un lenguaje de plantilla estructurado para conectar los prompts en lenguaje natural con el código de modelo ejecutable. También desarrollamos una puntuación de detección de cero disparos para la evaluación rápida de arquitecturas candidatas basadas en YOLO sin necesidad de un entrenamiento completo. Los experimentos en NAS-Bench-Macro, CIFAR-10/100, COCO y VisDrone2019 demuestran que PhaseNAS descubre consistentemente arquitecturas superiores, reduciendo el tiempo de búsqueda en hasta un 86% mientras mejora la precisión y la eficiencia de recursos. En los benchmarks de detección de UAV, PhaseNAS produce variantes de YOLOv8 con mayor mAP y menor costo computacional, destacando su idoneidad para el despliegue a bordo en tiempo real. Estos resultados indican que PhaseNAS ofrece una solución práctica y generalizable para el diseño de modelos de IA autónomos en sistemas UAV de próxima generación.
Descripción
La Búsqueda de Arquitectura Neural (NAS) es crítica para desarrollar modelos de percepción eficientes y robustos para aplicaciones basadas en UAV y drones, donde la detección de objetos pequeños en tiempo real y las limitaciones computacionales son desafíos importantes. Los métodos NAS existentes, incluidas las enfoques recientes que aprovechan grandes modelos de lenguaje (LLMs), a menudo sufren de asignación de recursos estática y generación de arquitecturas ambiguas, lo que limita su efectividad en escenarios aéreos dinámicos. En este estudio, proponemos PhaseNAS, un marco NAS impulsado por LLM adaptativo diseñado para tareas de percepción de drones. PhaseNAS ajusta dinámicamente la capacidad de LLM a través de las fases de exploración y refinamiento, e introduce un lenguaje de plantilla estructurado para conectar los prompts en lenguaje natural con el código de modelo ejecutable. También desarrollamos una puntuación de detección de cero disparos para la evaluación rápida de arquitecturas candidatas basadas en YOLO sin necesidad de un entrenamiento completo. Los experimentos en NAS-Bench-Macro, CIFAR-10/100, COCO y VisDrone2019 demuestran que PhaseNAS descubre consistentemente arquitecturas superiores, reduciendo el tiempo de búsqueda en hasta un 86% mientras mejora la precisión y la eficiencia de recursos. En los benchmarks de detección de UAV, PhaseNAS produce variantes de YOLOv8 con mayor mAP y menor costo computacional, destacando su idoneidad para el despliegue a bordo en tiempo real. Estos resultados indican que PhaseNAS ofrece una solución práctica y generalizable para el diseño de modelos de IA autónomos en sistemas UAV de próxima generación.