logo móvil
Contáctanos

Comprensión de escenas a nivel cognitivo basada en mecanismos de atención

Autores: Tang, Xuejiao; Zhang, Wenbin

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Comprensión de escenas a nivel cognitivo basada en mecanismos de atención


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Razonamiento de sentido común visual
Tarea VCR
Habilidades de inferencia
Conocimiento del mundo real
Comprensión de escenas a nivel cognitivo
PAVCR

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Dada una entrada de imagen-pregunta, un modelo de razonamiento visual de sentido común (VCR) predice una respuesta con una justificación correspondiente, lo que requiere habilidades de inferencia basadas en el conocimiento del mundo real. La tarea VCR, que requiere explotar información de múltiples fuentes así como aprender diferentes niveles de comprensión y un extenso conocimiento de sentido común, es un desafío de comprensión de escenas a nivel cognitivo. La tarea VCR ha despertado el interés de los investigadores debido a su amplia gama de aplicaciones, que incluyen la respuesta a preguntas visuales, sistemas de vehículos automatizados y soporte a la decisión clínica. Los enfoques anteriores para resolver la tarea VCR generalmente se han basado en el preentrenamiento o en la explotación de la memoria con modelos codificados de relaciones de dependencia a largo plazo. Sin embargo, estos enfoques sufren de una falta de generalización y una pérdida de información en secuencias largas. En este trabajo, proponemos una red VCR cognitiva basada en atención paralela, denominada PAVCR, que fusiona información visual-textual de manera eficiente y codifica información semántica en paralelo para permitir que el modelo capture información rica para la inferencia a nivel cognitivo. Experimentos extensos muestran que el modelo propuesto produce mejoras significativas sobre los métodos existentes en el conjunto de datos de referencia VCR. Además, el modelo propuesto proporciona una interpretación intuitiva del razonamiento visual de sentido común.

Otros recursos que podrían interesarte

Temas Virtualpro