Detección de Objetivos Móviles Ocultos por un Grupo de Agentes Móviles con Aprendizaje Profundo por Refuerzo Q
Autores: Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Detección de Objetivos Móviles Ocultos por un Grupo de Agentes Móviles con Aprendizaje Profundo por Refuerzo Q
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Solución
Búsqueda
Agentes
Objetivos
Algoritmos
Caminos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
En este artículo, proponemos una solución para el problema de búsqueda de múltiples objetivos por un grupo de agentes móviles con errores de detección de primer y segundo tipo. El objetivo de los agentes es planificar la búsqueda y seguir sus trayectorias que conducen a la detección de objetivos en el menor tiempo posible. Basándonos en las propiedades de los sensores reales, asumimos que los agentes pueden detectar los objetivos en varias direcciones y distancias; sin embargo, están expuestos a errores estadísticos de primer y segundo tipo. Además, asumimos que los agentes del grupo tienen comunicación sin errores entre sí. No se asume ninguna estación central o agente coordinador que controle la búsqueda. Así, la búsqueda sigue un proceso de toma de decisiones completamente distribuido, en el que cada agente planifica su camino de manera independiente basado en la información sobre los objetivos, que se recopila de manera independiente o se recibe de otros agentes. La solución sugerida incluye dos algoritmos: el algoritmo de Ganancia de Información Esperada Distribuida (DEIG), que implementa una partición de Voronoi dinámica del espacio de búsqueda y planifica los caminos maximizando la información esperada de un paso hacia adelante por región, y el algoritmo de Q-max Colectivo (CQM), que encuentra los caminos más cortos de los agentes en el grupo maximizando la información acumulativa sobre las ubicaciones de los objetivos utilizando técnicas de aprendizaje profundo Q. Los algoritmos desarrollados se comparan con métodos reactivos y de aprendizaje previamente desarrollados, como el método de Ganancia de Información Esperada (EIG) centralizado codicioso. Se demuestra que estos algoritmos, específicamente el algoritmo Q-max Colectivo, superan considerablemente las soluciones existentes. En particular, los algoritmos propuestos mejoran los resultados entre un 20% y un 100% en diferentes escenarios de entornos ruidosos y sensibilidad de los sensores.
Descripción
En este artículo, proponemos una solución para el problema de búsqueda de múltiples objetivos por un grupo de agentes móviles con errores de detección de primer y segundo tipo. El objetivo de los agentes es planificar la búsqueda y seguir sus trayectorias que conducen a la detección de objetivos en el menor tiempo posible. Basándonos en las propiedades de los sensores reales, asumimos que los agentes pueden detectar los objetivos en varias direcciones y distancias; sin embargo, están expuestos a errores estadísticos de primer y segundo tipo. Además, asumimos que los agentes del grupo tienen comunicación sin errores entre sí. No se asume ninguna estación central o agente coordinador que controle la búsqueda. Así, la búsqueda sigue un proceso de toma de decisiones completamente distribuido, en el que cada agente planifica su camino de manera independiente basado en la información sobre los objetivos, que se recopila de manera independiente o se recibe de otros agentes. La solución sugerida incluye dos algoritmos: el algoritmo de Ganancia de Información Esperada Distribuida (DEIG), que implementa una partición de Voronoi dinámica del espacio de búsqueda y planifica los caminos maximizando la información esperada de un paso hacia adelante por región, y el algoritmo de Q-max Colectivo (CQM), que encuentra los caminos más cortos de los agentes en el grupo maximizando la información acumulativa sobre las ubicaciones de los objetivos utilizando técnicas de aprendizaje profundo Q. Los algoritmos desarrollados se comparan con métodos reactivos y de aprendizaje previamente desarrollados, como el método de Ganancia de Información Esperada (EIG) centralizado codicioso. Se demuestra que estos algoritmos, específicamente el algoritmo Q-max Colectivo, superan considerablemente las soluciones existentes. En particular, los algoritmos propuestos mejoran los resultados entre un 20% y un 100% en diferentes escenarios de entornos ruidosos y sensibilidad de los sensores.