Un algoritmo de descripción de imágenes basado en un mecanismo de atención combinada

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un algoritmo de descripción de imágenes basado en un mecanismo de atención combinada

Autores: Liu, Jinlong; Cheng, Kangda; Jin, Haiyan; Wu, Zhilu

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Un algoritmo de descripción de imágenes basado en un mecanismo de atención combinada

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Visión por computadora

Tecnología de procesamiento de lenguaje natural

Subtitulado de imágenes

Mecanismos de atención

Módulo de atención de palabras clave

Transformer

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones

Con la madurez de la tecnología de visión por computadora y procesamiento de lenguaje natural, nos estamos volviendo más ambiciosos en la generación de subtítulos de imágenes. Específicamente, somos más ambiciosos en la generación de oraciones más largas, ricas y precisas como descripciones de imágenes. La mayoría de los modelos de subtítulos de imágenes existentes utilizan una estructura codificador-decodificador, y la mayoría de los modelos con mejor rendimiento incorporan mecanismos de atención en la estructura codificador-decodificador. Sin embargo, los métodos existentes de subtítulos de imágenes se centran solo en el mecanismo de atención visual y no en el mecanismo de atención de palabras clave, lo que lleva a que las oraciones generadas por el modelo no sean lo suficientemente ricas y precisas, y los errores en la extracción de características visuales pueden llevar directamente a oraciones de subtítulos generadas que son incorrectas. Para llenar esta brecha, proponemos un módulo de atención combinado. Este módulo comprende un módulo de atención visual y un módulo de atención de palabras clave. El módulo de atención visual ayuda a realizar extracciones rápidas de características locales clave, y el módulo de atención de palabras clave se enfoca en palabras clave que pueden aparecer en las oraciones generadas. Los resultados generados por los dos módulos pueden corregirse mutuamente. Incrustamos el módulo de atención combinado en el marco del Transformer, construyendo así un nuevo modelo de subtítulos de imágenes CAT (Transformer de Atención Combinada) para generar oraciones de subtítulos de imágenes más precisas y ricas. Experimentos extensos en el conjunto de datos MSCOCO demuestran la efectividad y superioridad de nuestro método sobre muchos métodos de vanguardia.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro