La elección óptima de los componentes del modelo de codificador-decodificador para la generación de descripciones de imágenes
Autores: Bartosiewicz, Mateusz; Iwanowski, Marcin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
La elección óptima de los componentes del modelo de codificador-decodificador para la generación de descripciones de imágenes
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Etiquetado de imágenes
Modelo de aprendizaje profundo de codificador-decodificador
Recursos computacionales
Extractores de características de imágenes
Redes neuronales recurrentes
Modelos de incrustación de palabras
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La generación de subtítulos para imágenes tiene como objetivo producir descripciones verbales significativas de una imagen digital. Este campo está creciendo rápidamente debido al enorme aumento en los recursos computacionales disponibles. Sin embargo, los métodos más avanzados son exigentes en recursos. En nuestro artículo, regresamos al modelo de aprendizaje profundo de codificador-decodificador e investigamos cómo reemplazar sus componentes por equivalentes más nuevos mejora la efectividad general. La principal motivación de nuestro estudio es obtener el nivel más alto posible de mejora de los métodos clásicos, que son aplicables en entornos computacionales menos potentes donde los modelos más avanzados son demasiado pesados para ser aplicados de manera eficiente. Investigamos extractores de características de imágenes, redes neuronales recurrentes, modelos de incrustación de palabras y capas de generación de palabras, y discutimos cómo cada componente influye en el rendimiento general del modelo de subtitulado. Nuestros experimentos se realizan en el conjunto de datos MS COCO 2014. Como resultado de nuestra investigación, el reemplazo de componentes mejora la calidad de la generación de subtítulos para imágenes. Los resultados ayudarán a diseñar modelos eficientes con combinaciones óptimas de sus componentes.
Descripción
La generación de subtítulos para imágenes tiene como objetivo producir descripciones verbales significativas de una imagen digital. Este campo está creciendo rápidamente debido al enorme aumento en los recursos computacionales disponibles. Sin embargo, los métodos más avanzados son exigentes en recursos. En nuestro artículo, regresamos al modelo de aprendizaje profundo de codificador-decodificador e investigamos cómo reemplazar sus componentes por equivalentes más nuevos mejora la efectividad general. La principal motivación de nuestro estudio es obtener el nivel más alto posible de mejora de los métodos clásicos, que son aplicables en entornos computacionales menos potentes donde los modelos más avanzados son demasiado pesados para ser aplicados de manera eficiente. Investigamos extractores de características de imágenes, redes neuronales recurrentes, modelos de incrustación de palabras y capas de generación de palabras, y discutimos cómo cada componente influye en el rendimiento general del modelo de subtitulado. Nuestros experimentos se realizan en el conjunto de datos MS COCO 2014. Como resultado de nuestra investigación, el reemplazo de componentes mejora la calidad de la generación de subtítulos para imágenes. Los resultados ayudarán a diseñar modelos eficientes con combinaciones óptimas de sus componentes.