Agente de aprendizaje por refuerzo de búsqueda en cascada para comprensión de frases débilmente supervisada sin propuestas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Agente de aprendizaje por refuerzo de búsqueda en cascada para comprensión de frases débilmente supervisada sin propuestas

Autores: Wang, Yaodong; Yue, Lili; Li, Maoqing

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Agente de aprendizaje por refuerzo de búsqueda en cascada para comprensión de frases débilmente supervisada sin propuestas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Comprensión de frases

Consulta lingüística

Entrenamiento débilmente supervisado sin propuestas

Agente de aprendizaje por refuerzo de búsqueda en cascada

Atención cruzada visual-textual

Proceso de decisión de Markov

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones

La comprensión de frases (PC) tiene como objetivo localizar un objeto específico en una imagen según una consulta lingüística dada. Los métodos de PC existentes funcionan ya sea de manera completamente supervisada o basada en propuestas débilmente supervisadas, que dependen explícita o implícitamente de anotaciones de región costosas. Para eliminar completamente la dependencia de la información de región supervisada, este documento propone abordar PC en un paradigma de entrenamiento débilmente supervisado sin propuestas. Para ello, desarrollamos un nuevo agente de aprendizaje por refuerzo de búsqueda en cascada (CSRLA). Concretamente, primero aprovechamos un modelo preentrenado de lenguaje visual para generar un mapa de atención cruzada visual-textual. En consecuencia, se localizó una región inicial prominente gruesa del objetivo referencial. Luego, formulamos el anclaje de objetos visuales como un proceso de decisión de Markov (MDP) en un marco de aprendizaje por refuerzo, donde un agente fue entrenado para buscar iterativamente la región completa del objetivo desde la región local prominente. Además, desarrollamos una nueva función de recompensa de discriminación de confianza (ConDis_R) para restringir al modelo a buscar una región de objeto completa y exclusiva. Los resultados experimentales en tres conjuntos de datos de referencia Refcoco, Refcoco+ y Refcocog demostraron la efectividad de nuestro método propuesto.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro