logo móvil
Contáctanos

Hacia modelos de lenguaje visual alineados con la cognición a través de la recuperación de instancias sin entrenamiento

Autores: Ma, Teng; Organisciak, Daniel; Ma, Wenbao; Long, Yang

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Hacia modelos de lenguaje visual alineados con la cognición a través de la recuperación de instancias sin entrenamiento


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Búsqueda
Inteligencia artificial
Recuperación de instancias de cero disparos
Alineación cognitiva
Función de similitud
Brecha visual-semántica

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
La búsqueda de la Inteligencia Artificial (IA) que emula los procesos cognitivos humanos es un pilar del desarrollo ético de la IA, asegurando que las tecnologías emergentes puedan integrarse sin problemas en marcos sociales que requieren una comprensión y toma de decisiones matizada. La Recuperación de Instancias sin Tiro (ZSIR, por sus siglas en inglés) se sitúa en la vanguardia de este esfuerzo, proporcionando potencialmente una plataforma robusta para sistemas de IA, especialmente grandes modelos visuales de lenguaje, para demostrar y refinar el aprendizaje alineado con la cognición sin necesidad de experiencia directa. En este artículo, evaluamos críticamente las metodologías actuales de alineación cognitiva dentro de los paradigmas tradicionales de aprendizaje sin tiro utilizando atributos visuales y embedding de palabras generados por grandes modelos de IA. Proponemos una función de similitud unificada que cuantifica el nivel de alineación cognitiva, cerrando la brecha entre los procesos de IA y la comprensión similar a la humana. A través de experimentación extensa, nuestros hallazgos ilustran que esta función de similitud puede reflejar efectivamente la brecha visual-semántica, guiando al modelo hacia un rendimiento mejorado en la Recuperación de Instancias sin Tiro. Nuestros modelos alcanzan un rendimiento de vanguardia tanto en los conjuntos de datos SUN (92.8% y 82.2%) como en CUB (59.92% y 48.82%) para la precisión de recuperación de imágenes y atributos bidireccional. Este trabajo no solo establece el benchmarking de la alineación cognitiva de la IA, sino que también sienta un nuevo precedente para el desarrollo de modelos visuales de lenguaje ajustados a las complejidades de la cognición humana.

Otros recursos que podrían interesarte

Temas Virtualpro