Un algoritmo de descripción de imágenes basado en un mecanismo de atención combinada
Autores: Liu, Jinlong; Cheng, Kangda; Jin, Haiyan; Wu, Zhilu
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un algoritmo de descripción de imágenes basado en un mecanismo de atención combinada
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Visión por computadora
Tecnología de procesamiento de lenguaje natural
Subtitulado de imágenes
Mecanismos de atención
Módulo de atención de palabras clave
Transformer
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Con la madurez de la tecnología de visión por computadora y procesamiento de lenguaje natural, nos estamos volviendo más ambiciosos en la generación de subtítulos de imágenes. Específicamente, somos más ambiciosos en la generación de oraciones más largas, ricas y precisas como descripciones de imágenes. La mayoría de los modelos de subtítulos de imágenes existentes utilizan una estructura codificador-decodificador, y la mayoría de los modelos con mejor rendimiento incorporan mecanismos de atención en la estructura codificador-decodificador. Sin embargo, los métodos existentes de subtítulos de imágenes se centran solo en el mecanismo de atención visual y no en el mecanismo de atención de palabras clave, lo que lleva a que las oraciones generadas por el modelo no sean lo suficientemente ricas y precisas, y los errores en la extracción de características visuales pueden llevar directamente a oraciones de subtítulos generadas que son incorrectas. Para llenar esta brecha, proponemos un módulo de atención combinado. Este módulo comprende un módulo de atención visual y un módulo de atención de palabras clave. El módulo de atención visual ayuda a realizar extracciones rápidas de características locales clave, y el módulo de atención de palabras clave se enfoca en palabras clave que pueden aparecer en las oraciones generadas. Los resultados generados por los dos módulos pueden corregirse mutuamente. Incrustamos el módulo de atención combinado en el marco del Transformer, construyendo así un nuevo modelo de subtítulos de imágenes CAT (Transformer de Atención Combinada) para generar oraciones de subtítulos de imágenes más precisas y ricas. Experimentos extensos en el conjunto de datos MSCOCO demuestran la efectividad y superioridad de nuestro método sobre muchos métodos de vanguardia.
Descripción
Con la madurez de la tecnología de visión por computadora y procesamiento de lenguaje natural, nos estamos volviendo más ambiciosos en la generación de subtítulos de imágenes. Específicamente, somos más ambiciosos en la generación de oraciones más largas, ricas y precisas como descripciones de imágenes. La mayoría de los modelos de subtítulos de imágenes existentes utilizan una estructura codificador-decodificador, y la mayoría de los modelos con mejor rendimiento incorporan mecanismos de atención en la estructura codificador-decodificador. Sin embargo, los métodos existentes de subtítulos de imágenes se centran solo en el mecanismo de atención visual y no en el mecanismo de atención de palabras clave, lo que lleva a que las oraciones generadas por el modelo no sean lo suficientemente ricas y precisas, y los errores en la extracción de características visuales pueden llevar directamente a oraciones de subtítulos generadas que son incorrectas. Para llenar esta brecha, proponemos un módulo de atención combinado. Este módulo comprende un módulo de atención visual y un módulo de atención de palabras clave. El módulo de atención visual ayuda a realizar extracciones rápidas de características locales clave, y el módulo de atención de palabras clave se enfoca en palabras clave que pueden aparecer en las oraciones generadas. Los resultados generados por los dos módulos pueden corregirse mutuamente. Incrustamos el módulo de atención combinado en el marco del Transformer, construyendo así un nuevo modelo de subtítulos de imágenes CAT (Transformer de Atención Combinada) para generar oraciones de subtítulos de imágenes más precisas y ricas. Experimentos extensos en el conjunto de datos MSCOCO demuestran la efectividad y superioridad de nuestro método sobre muchos métodos de vanguardia.