Multimodal clasificación de imágenes de alimentos con grandes modelos de lenguaje
Autores: Kim, Jun-Hwa; Kim, Nam-Ho; Jo, Donghyeok; Won, Chee Sun
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Multimodal clasificación de imágenes de alimentos con grandes modelos de lenguaje
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Avances
Modelos de lenguaje
Clasificación de imágenes de alimentos detallada
Marco de aprendizaje multimodal
Descripciones textuales
Mecanismo de atención cruzada
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
En este estudio, aprovechamos los avances en los modelos de lenguaje grandes (LLMs) para la clasificación de imágenes de alimentos detallada. Logramos esto integrando características textuales extraídas de imágenes utilizando un LLM en un marco de aprendizaje multimodal. Específicamente, las descripciones textuales semánticas generadas por el LLM se codifican y se combinan con características de imagen obtenidas de una arquitectura basada en transformadores para mejorar la clasificación de imágenes de alimentos. Nuestro enfoque emplea un mecanismo de atención cruzada para fusionar de manera efectiva las modalidades visual y textual, mejorando la capacidad del modelo para extraer características discriminativas más allá de lo que se puede lograr solo con características visuales.
Descripción
En este estudio, aprovechamos los avances en los modelos de lenguaje grandes (LLMs) para la clasificación de imágenes de alimentos detallada. Logramos esto integrando características textuales extraídas de imágenes utilizando un LLM en un marco de aprendizaje multimodal. Específicamente, las descripciones textuales semánticas generadas por el LLM se codifican y se combinan con características de imagen obtenidas de una arquitectura basada en transformadores para mejorar la clasificación de imágenes de alimentos. Nuestro enfoque emplea un mecanismo de atención cruzada para fusionar de manera efectiva las modalidades visual y textual, mejorando la capacidad del modelo para extraer características discriminativas más allá de lo que se puede lograr solo con características visuales.