logo móvil
Contáctanos

Modelado de modelo de aprendizaje profundo sintonizado de hiperparámetros para generación automática de subtítulos de imágenes

Autores: Omri, Mohamed; Abdel-Khalek, Sayed; Khalil, Eied M.; Bouslimi, Jamel; Joshi, Gyanendra Prasad

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Modelado de modelo de aprendizaje profundo sintonizado de hiperparámetros para generación automática de subtítulos de imágenes


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Procesamiento de imágenes
Generación automática de subtítulos de imágenes
Modelos de aprendizaje profundo
Visión por computadora
Procesamiento de lenguaje natural
Ajuste de hiperparámetros

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
El procesamiento de imágenes sigue siendo un tema de investigación candente entre las comunidades de investigación debido a su aplicabilidad en varias áreas. Una aplicación importante del procesamiento de imágenes es la técnica automática de subtitulado de imágenes, que tiene la intención de generar una descripción adecuada de una imagen en un lenguaje natural de forma automatizada. El subtitulado de imágenes es un tema de investigación candente recientemente desarrollado, y comenzó a recibir una atención significativa en el campo de la visión por computadora y el procesamiento del lenguaje natural (PLN). Dado que el subtitulado de imágenes se considera una tarea desafiante, los modelos de aprendizaje profundo (DL) recientemente desarrollados han logrado un rendimiento significativo con un aumento de la complejidad y el costo computacional. Teniendo en cuenta estos problemas, en este documento se propone una técnica novedosa de DL ajustada a hiperparámetros para el subtitulado automático de imágenes (HPTDL-AIC). La técnica HPTDL-AIC abarca dos partes principales, a saber, el codificador y el decodificador. La parte del codificador utiliza Faster SqueezNet con el modelo RMSProp para generar una representación efectiva de la imagen de entrada mediante la inserción en un vector de longitud predefinida. Al mismo tiempo, la unidad del decodificador emplea un algoritmo de enjambre de pájaros (BSA) con un modelo de memoria a corto plazo largo (LSTM) para centrarse en la generación de frases de descripción. El diseño de RMSProp y BSA para el proceso de ajuste de hiperparámetros de los modelos Faster SqueezeNet y LSTM para el subtitulado de imágenes muestra la novedad del trabajo, lo que ayuda a lograr un rendimiento mejorado en el subtitulado de imágenes. La validación experimental de la técnica HPTDL-AIC se lleva a cabo contra dos conjuntos de datos de referencia, y el extenso estudio comparativo señaló el rendimiento mejorado de la técnica HPTDL-AIC sobre los enfoques recientes.

Otros recursos que podrían interesarte

Temas Virtualpro