Comprensión de escenas a nivel cognitivo basada en mecanismos de atención

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Comprensión de escenas a nivel cognitivo basada en mecanismos de atención

Autores: Tang, Xuejiao; Zhang, Wenbin

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Comprensión de escenas a nivel cognitivo basada en mecanismos de atención

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Razonamiento de sentido común visual

Tarea VCR

Habilidades de inferencia

Conocimiento del mundo real

Comprensión de escenas a nivel cognitivo

PAVCR

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Dada una entrada de imagen-pregunta, un modelo de razonamiento visual de sentido común (VCR) predice una respuesta con una justificación correspondiente, lo que requiere habilidades de inferencia basadas en el conocimiento del mundo real. La tarea VCR, que requiere explotar información de múltiples fuentes así como aprender diferentes niveles de comprensión y un extenso conocimiento de sentido común, es un desafío de comprensión de escenas a nivel cognitivo. La tarea VCR ha despertado el interés de los investigadores debido a su amplia gama de aplicaciones, que incluyen la respuesta a preguntas visuales, sistemas de vehículos automatizados y soporte a la decisión clínica. Los enfoques anteriores para resolver la tarea VCR generalmente se han basado en el preentrenamiento o en la explotación de la memoria con modelos codificados de relaciones de dependencia a largo plazo. Sin embargo, estos enfoques sufren de una falta de generalización y una pérdida de información en secuencias largas. En este trabajo, proponemos una red VCR cognitiva basada en atención paralela, denominada PAVCR, que fusiona información visual-textual de manera eficiente y codifica información semántica en paralelo para permitir que el modelo capture información rica para la inferencia a nivel cognitivo. Experimentos extensos muestran que el modelo propuesto produce mejoras significativas sobre los métodos existentes en el conjunto de datos de referencia VCR. Además, el modelo propuesto proporciona una interpretación intuitiva del razonamiento visual de sentido común.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro