logo móvil
Contáctanos

Multimodal clasificación de imágenes de alimentos con grandes modelos de lenguaje

Autores: Kim, Jun-Hwa; Kim, Nam-Ho; Jo, Donghyeok; Won, Chee Sun

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Multimodal clasificación de imágenes de alimentos con grandes modelos de lenguaje


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Avances
Modelos de lenguaje
Clasificación de imágenes de alimentos detallada
Marco de aprendizaje multimodal
Descripciones textuales
Mecanismo de atención cruzada

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones


Descripción
En este estudio, aprovechamos los avances en los modelos de lenguaje grandes (LLMs) para la clasificación de imágenes de alimentos detallada. Logramos esto integrando características textuales extraídas de imágenes utilizando un LLM en un marco de aprendizaje multimodal. Específicamente, las descripciones textuales semánticas generadas por el LLM se codifican y se combinan con características de imagen obtenidas de una arquitectura basada en transformadores para mejorar la clasificación de imágenes de alimentos. Nuestro enfoque emplea un mecanismo de atención cruzada para fusionar de manera efectiva las modalidades visual y textual, mejorando la capacidad del modelo para extraer características discriminativas más allá de lo que se puede lograr solo con características visuales.

Otros recursos que podrían interesarte

Temas Virtualpro