Comprensión de escenas a nivel cognitivo basada en mecanismos de atención
Autores: Tang, Xuejiao; Zhang, Wenbin
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Comprensión de escenas a nivel cognitivo basada en mecanismos de atención
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Razonamiento de sentido común visual
Tarea VCR
Habilidades de inferencia
Conocimiento del mundo real
Comprensión de escenas a nivel cognitivo
PAVCR
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Dada una entrada de imagen-pregunta, un modelo de razonamiento visual de sentido común (VCR) predice una respuesta con una justificación correspondiente, lo que requiere habilidades de inferencia basadas en el conocimiento del mundo real. La tarea VCR, que requiere explotar información de múltiples fuentes así como aprender diferentes niveles de comprensión y un extenso conocimiento de sentido común, es un desafío de comprensión de escenas a nivel cognitivo. La tarea VCR ha despertado el interés de los investigadores debido a su amplia gama de aplicaciones, que incluyen la respuesta a preguntas visuales, sistemas de vehículos automatizados y soporte a la decisión clínica. Los enfoques anteriores para resolver la tarea VCR generalmente se han basado en el preentrenamiento o en la explotación de la memoria con modelos codificados de relaciones de dependencia a largo plazo. Sin embargo, estos enfoques sufren de una falta de generalización y una pérdida de información en secuencias largas. En este trabajo, proponemos una red VCR cognitiva basada en atención paralela, denominada PAVCR, que fusiona información visual-textual de manera eficiente y codifica información semántica en paralelo para permitir que el modelo capture información rica para la inferencia a nivel cognitivo. Experimentos extensos muestran que el modelo propuesto produce mejoras significativas sobre los métodos existentes en el conjunto de datos de referencia VCR. Además, el modelo propuesto proporciona una interpretación intuitiva del razonamiento visual de sentido común.
Descripción
Dada una entrada de imagen-pregunta, un modelo de razonamiento visual de sentido común (VCR) predice una respuesta con una justificación correspondiente, lo que requiere habilidades de inferencia basadas en el conocimiento del mundo real. La tarea VCR, que requiere explotar información de múltiples fuentes así como aprender diferentes niveles de comprensión y un extenso conocimiento de sentido común, es un desafío de comprensión de escenas a nivel cognitivo. La tarea VCR ha despertado el interés de los investigadores debido a su amplia gama de aplicaciones, que incluyen la respuesta a preguntas visuales, sistemas de vehículos automatizados y soporte a la decisión clínica. Los enfoques anteriores para resolver la tarea VCR generalmente se han basado en el preentrenamiento o en la explotación de la memoria con modelos codificados de relaciones de dependencia a largo plazo. Sin embargo, estos enfoques sufren de una falta de generalización y una pérdida de información en secuencias largas. En este trabajo, proponemos una red VCR cognitiva basada en atención paralela, denominada PAVCR, que fusiona información visual-textual de manera eficiente y codifica información semántica en paralelo para permitir que el modelo capture información rica para la inferencia a nivel cognitivo. Experimentos extensos muestran que el modelo propuesto produce mejoras significativas sobre los métodos existentes en el conjunto de datos de referencia VCR. Además, el modelo propuesto proporciona una interpretación intuitiva del razonamiento visual de sentido común.