logo móvil
Contáctanos

Un algoritmo de descripción de imágenes basado en un mecanismo de atención combinada

Autores: Liu, Jinlong; Cheng, Kangda; Jin, Haiyan; Wu, Zhilu

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Un algoritmo de descripción de imágenes basado en un mecanismo de atención combinada


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Visión por computadora
Tecnología de procesamiento de lenguaje natural
Subtitulado de imágenes
Mecanismos de atención
Módulo de atención de palabras clave
Transformer

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Con la madurez de la tecnología de visión por computadora y procesamiento de lenguaje natural, nos estamos volviendo más ambiciosos en la generación de subtítulos de imágenes. Específicamente, somos más ambiciosos en la generación de oraciones más largas, ricas y precisas como descripciones de imágenes. La mayoría de los modelos de subtítulos de imágenes existentes utilizan una estructura codificador-decodificador, y la mayoría de los modelos con mejor rendimiento incorporan mecanismos de atención en la estructura codificador-decodificador. Sin embargo, los métodos existentes de subtítulos de imágenes se centran solo en el mecanismo de atención visual y no en el mecanismo de atención de palabras clave, lo que lleva a que las oraciones generadas por el modelo no sean lo suficientemente ricas y precisas, y los errores en la extracción de características visuales pueden llevar directamente a oraciones de subtítulos generadas que son incorrectas. Para llenar esta brecha, proponemos un módulo de atención combinado. Este módulo comprende un módulo de atención visual y un módulo de atención de palabras clave. El módulo de atención visual ayuda a realizar extracciones rápidas de características locales clave, y el módulo de atención de palabras clave se enfoca en palabras clave que pueden aparecer en las oraciones generadas. Los resultados generados por los dos módulos pueden corregirse mutuamente. Incrustamos el módulo de atención combinado en el marco del Transformer, construyendo así un nuevo modelo de subtítulos de imágenes CAT (Transformer de Atención Combinada) para generar oraciones de subtítulos de imágenes más precisas y ricas. Experimentos extensos en el conjunto de datos MSCOCO demuestran la efectividad y superioridad de nuestro método sobre muchos métodos de vanguardia.

Otros recursos que podrían interesarte

Temas Virtualpro