Modelado de modelo de aprendizaje profundo sintonizado de hiperparámetros para generación automática de subtítulos de imágenes
Autores: Omri, Mohamed; Abdel-Khalek, Sayed; Khalil, Eied M.; Bouslimi, Jamel; Joshi, Gyanendra Prasad
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Modelado de modelo de aprendizaje profundo sintonizado de hiperparámetros para generación automática de subtítulos de imágenes
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Procesamiento de imágenes
Generación automática de subtítulos de imágenes
Modelos de aprendizaje profundo
Visión por computadora
Procesamiento de lenguaje natural
Ajuste de hiperparámetros
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
El procesamiento de imágenes sigue siendo un tema de investigación candente entre las comunidades de investigación debido a su aplicabilidad en varias áreas. Una aplicación importante del procesamiento de imágenes es la técnica automática de subtitulado de imágenes, que tiene la intención de generar una descripción adecuada de una imagen en un lenguaje natural de forma automatizada. El subtitulado de imágenes es un tema de investigación candente recientemente desarrollado, y comenzó a recibir una atención significativa en el campo de la visión por computadora y el procesamiento del lenguaje natural (PLN). Dado que el subtitulado de imágenes se considera una tarea desafiante, los modelos de aprendizaje profundo (DL) recientemente desarrollados han logrado un rendimiento significativo con un aumento de la complejidad y el costo computacional. Teniendo en cuenta estos problemas, en este documento se propone una técnica novedosa de DL ajustada a hiperparámetros para el subtitulado automático de imágenes (HPTDL-AIC). La técnica HPTDL-AIC abarca dos partes principales, a saber, el codificador y el decodificador. La parte del codificador utiliza Faster SqueezNet con el modelo RMSProp para generar una representación efectiva de la imagen de entrada mediante la inserción en un vector de longitud predefinida. Al mismo tiempo, la unidad del decodificador emplea un algoritmo de enjambre de pájaros (BSA) con un modelo de memoria a corto plazo largo (LSTM) para centrarse en la generación de frases de descripción. El diseño de RMSProp y BSA para el proceso de ajuste de hiperparámetros de los modelos Faster SqueezeNet y LSTM para el subtitulado de imágenes muestra la novedad del trabajo, lo que ayuda a lograr un rendimiento mejorado en el subtitulado de imágenes. La validación experimental de la técnica HPTDL-AIC se lleva a cabo contra dos conjuntos de datos de referencia, y el extenso estudio comparativo señaló el rendimiento mejorado de la técnica HPTDL-AIC sobre los enfoques recientes.
Descripción
El procesamiento de imágenes sigue siendo un tema de investigación candente entre las comunidades de investigación debido a su aplicabilidad en varias áreas. Una aplicación importante del procesamiento de imágenes es la técnica automática de subtitulado de imágenes, que tiene la intención de generar una descripción adecuada de una imagen en un lenguaje natural de forma automatizada. El subtitulado de imágenes es un tema de investigación candente recientemente desarrollado, y comenzó a recibir una atención significativa en el campo de la visión por computadora y el procesamiento del lenguaje natural (PLN). Dado que el subtitulado de imágenes se considera una tarea desafiante, los modelos de aprendizaje profundo (DL) recientemente desarrollados han logrado un rendimiento significativo con un aumento de la complejidad y el costo computacional. Teniendo en cuenta estos problemas, en este documento se propone una técnica novedosa de DL ajustada a hiperparámetros para el subtitulado automático de imágenes (HPTDL-AIC). La técnica HPTDL-AIC abarca dos partes principales, a saber, el codificador y el decodificador. La parte del codificador utiliza Faster SqueezNet con el modelo RMSProp para generar una representación efectiva de la imagen de entrada mediante la inserción en un vector de longitud predefinida. Al mismo tiempo, la unidad del decodificador emplea un algoritmo de enjambre de pájaros (BSA) con un modelo de memoria a corto plazo largo (LSTM) para centrarse en la generación de frases de descripción. El diseño de RMSProp y BSA para el proceso de ajuste de hiperparámetros de los modelos Faster SqueezeNet y LSTM para el subtitulado de imágenes muestra la novedad del trabajo, lo que ayuda a lograr un rendimiento mejorado en el subtitulado de imágenes. La validación experimental de la técnica HPTDL-AIC se lleva a cabo contra dos conjuntos de datos de referencia, y el extenso estudio comparativo señaló el rendimiento mejorado de la técnica HPTDL-AIC sobre los enfoques recientes.