Agente de aprendizaje por refuerzo de búsqueda en cascada para comprensión de frases débilmente supervisada sin propuestas
Autores: Wang, Yaodong; Yue, Lili; Li, Maoqing
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Agente de aprendizaje por refuerzo de búsqueda en cascada para comprensión de frases débilmente supervisada sin propuestas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Comprensión de frases
Consulta lingüística
Entrenamiento débilmente supervisado sin propuestas
Agente de aprendizaje por refuerzo de búsqueda en cascada
Atención cruzada visual-textual
Proceso de decisión de Markov
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
La comprensión de frases (PC) tiene como objetivo localizar un objeto específico en una imagen según una consulta lingüística dada. Los métodos de PC existentes funcionan ya sea de manera completamente supervisada o basada en propuestas débilmente supervisadas, que dependen explícita o implícitamente de anotaciones de región costosas. Para eliminar completamente la dependencia de la información de región supervisada, este documento propone abordar PC en un paradigma de entrenamiento débilmente supervisado sin propuestas. Para ello, desarrollamos un nuevo agente de aprendizaje por refuerzo de búsqueda en cascada (CSRLA). Concretamente, primero aprovechamos un modelo preentrenado de lenguaje visual para generar un mapa de atención cruzada visual-textual. En consecuencia, se localizó una región inicial prominente gruesa del objetivo referencial. Luego, formulamos el anclaje de objetos visuales como un proceso de decisión de Markov (MDP) en un marco de aprendizaje por refuerzo, donde un agente fue entrenado para buscar iterativamente la región completa del objetivo desde la región local prominente. Además, desarrollamos una nueva función de recompensa de discriminación de confianza (ConDis_R) para restringir al modelo a buscar una región de objeto completa y exclusiva. Los resultados experimentales en tres conjuntos de datos de referencia Refcoco, Refcoco+ y Refcocog demostraron la efectividad de nuestro método propuesto.
Descripción
La comprensión de frases (PC) tiene como objetivo localizar un objeto específico en una imagen según una consulta lingüística dada. Los métodos de PC existentes funcionan ya sea de manera completamente supervisada o basada en propuestas débilmente supervisadas, que dependen explícita o implícitamente de anotaciones de región costosas. Para eliminar completamente la dependencia de la información de región supervisada, este documento propone abordar PC en un paradigma de entrenamiento débilmente supervisado sin propuestas. Para ello, desarrollamos un nuevo agente de aprendizaje por refuerzo de búsqueda en cascada (CSRLA). Concretamente, primero aprovechamos un modelo preentrenado de lenguaje visual para generar un mapa de atención cruzada visual-textual. En consecuencia, se localizó una región inicial prominente gruesa del objetivo referencial. Luego, formulamos el anclaje de objetos visuales como un proceso de decisión de Markov (MDP) en un marco de aprendizaje por refuerzo, donde un agente fue entrenado para buscar iterativamente la región completa del objetivo desde la región local prominente. Además, desarrollamos una nueva función de recompensa de discriminación de confianza (ConDis_R) para restringir al modelo a buscar una región de objeto completa y exclusiva. Los resultados experimentales en tres conjuntos de datos de referencia Refcoco, Refcoco+ y Refcocog demostraron la efectividad de nuestro método propuesto.