Optimización de Políticas Proximales para la Búsqueda de Fuentes de Radiación
Autores: Proctor, Philippe; Teuscher, Christof; Hecht, Adam; Osinski, Marek
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Optimización de Políticas Proximales para la Búsqueda de Fuentes de Radiación
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Nuclear
Palabras clave
Búsqueda
Localización
Fuentes nucleares
Aprendizaje por refuerzo profundo
Arquitectura de redes neuronales
Detector de radiación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La búsqueda rápida y la localización de fuentes nucleares pueden ser un aspecto importante para prevenir daños humanos por material ilícito en bombas sucias o por contaminación. En el caso de un único detector de radiación móvil, hay numerosos desafíos que superar, como la baja intensidad de la fuente, múltiples fuentes, radiación de fondo y la presencia de obstrucciones, es decir, un entorno no convexo. En este trabajo, investigamos la capacidad de toma de decisiones secuencial del aprendizaje por refuerzo profundo en el contexto de búsqueda de fuentes nucleares. Se propone una nueva arquitectura de red neuronal (RAD-A2C) basada en el marco (A2C) y una unidad recurrente de filtro de partículas para la localización. Se estudia el rendimiento en un entorno de simulación aleatorizado convexo y no convexo a través de una gama de (SNR) para un único detector y una única fuente. El rendimiento de RAD-A2C se compara tanto con un controlador impulsado por información que utiliza un filtro de partículas bootstrap como con un algoritmo (GS). Encontramos que el RAD-A2C tiene un rendimiento comparable al del controlador impulsado por información en función de SNR en un entorno convexo. El RAD-A2C supera con creces al algoritmo GS en el entorno no convexo con una tasa de finalización superior a la mediana para hasta siete obstrucciones.
Descripción
La búsqueda rápida y la localización de fuentes nucleares pueden ser un aspecto importante para prevenir daños humanos por material ilícito en bombas sucias o por contaminación. En el caso de un único detector de radiación móvil, hay numerosos desafíos que superar, como la baja intensidad de la fuente, múltiples fuentes, radiación de fondo y la presencia de obstrucciones, es decir, un entorno no convexo. En este trabajo, investigamos la capacidad de toma de decisiones secuencial del aprendizaje por refuerzo profundo en el contexto de búsqueda de fuentes nucleares. Se propone una nueva arquitectura de red neuronal (RAD-A2C) basada en el marco (A2C) y una unidad recurrente de filtro de partículas para la localización. Se estudia el rendimiento en un entorno de simulación aleatorizado convexo y no convexo a través de una gama de (SNR) para un único detector y una única fuente. El rendimiento de RAD-A2C se compara tanto con un controlador impulsado por información que utiliza un filtro de partículas bootstrap como con un algoritmo (GS). Encontramos que el RAD-A2C tiene un rendimiento comparable al del controlador impulsado por información en función de SNR en un entorno convexo. El RAD-A2C supera con creces al algoritmo GS en el entorno no convexo con una tasa de finalización superior a la mediana para hasta siete obstrucciones.