Hacia modelos de lenguaje visual alineados con la cognición a través de la recuperación de instancias sin entrenamiento

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Hacia modelos de lenguaje visual alineados con la cognición a través de la recuperación de instancias sin entrenamiento

Autores: Ma, Teng; Organisciak, Daniel; Ma, Wenbao; Long, Yang

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Hacia modelos de lenguaje visual alineados con la cognición a través de la recuperación de instancias sin entrenamiento

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Búsqueda

Inteligencia artificial

Recuperación de instancias de cero disparos

Alineación cognitiva

Función de similitud

Brecha visual-semántica

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones

La búsqueda de la Inteligencia Artificial (IA) que emula los procesos cognitivos humanos es un pilar del desarrollo ético de la IA, asegurando que las tecnologías emergentes puedan integrarse sin problemas en marcos sociales que requieren una comprensión y toma de decisiones matizada. La Recuperación de Instancias sin Tiro (ZSIR, por sus siglas en inglés) se sitúa en la vanguardia de este esfuerzo, proporcionando potencialmente una plataforma robusta para sistemas de IA, especialmente grandes modelos visuales de lenguaje, para demostrar y refinar el aprendizaje alineado con la cognición sin necesidad de experiencia directa. En este artículo, evaluamos críticamente las metodologías actuales de alineación cognitiva dentro de los paradigmas tradicionales de aprendizaje sin tiro utilizando atributos visuales y embedding de palabras generados por grandes modelos de IA. Proponemos una función de similitud unificada que cuantifica el nivel de alineación cognitiva, cerrando la brecha entre los procesos de IA y la comprensión similar a la humana. A través de experimentación extensa, nuestros hallazgos ilustran que esta función de similitud puede reflejar efectivamente la brecha visual-semántica, guiando al modelo hacia un rendimiento mejorado en la Recuperación de Instancias sin Tiro. Nuestros modelos alcanzan un rendimiento de vanguardia tanto en los conjuntos de datos SUN (92.8% y 82.2%) como en CUB (59.92% y 48.82%) para la precisión de recuperación de imágenes y atributos bidireccional. Este trabajo no solo establece el benchmarking de la alineación cognitiva de la IA, sino que también sienta un nuevo precedente para el desarrollo de modelos visuales de lenguaje ajustados a las complejidades de la cognición humana.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro