Multimodal clasificación de imágenes de alimentos con grandes modelos de lenguaje

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Multimodal clasificación de imágenes de alimentos con grandes modelos de lenguaje

Autores: Kim, Jun-Hwa; Kim, Nam-Ho; Jo, Donghyeok; Won, Chee Sun

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Multimodal clasificación de imágenes de alimentos con grandes modelos de lenguaje

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Avances

Modelos de lenguaje

Clasificación de imágenes de alimentos detallada

Marco de aprendizaje multimodal

Descripciones textuales

Mecanismo de atención cruzada

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones

En este estudio, aprovechamos los avances en los modelos de lenguaje grandes (LLMs) para la clasificación de imágenes de alimentos detallada. Logramos esto integrando características textuales extraídas de imágenes utilizando un LLM en un marco de aprendizaje multimodal. Específicamente, las descripciones textuales semánticas generadas por el LLM se codifican y se combinan con características de imagen obtenidas de una arquitectura basada en transformadores para mejorar la clasificación de imágenes de alimentos. Nuestro enfoque emplea un mecanismo de atención cruzada para fusionar de manera efectiva las modalidades visual y textual, mejorando la capacidad del modelo para extraer características discriminativas más allá de lo que se puede lograr solo con características visuales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro