logo móvil
Contáctanos

Límites de Token Adaptativos: Hacia la Integración de Mecanismos de Fragmentación Humana en LLMs Multimodales

Autores: Yu, Dongxing

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Límites de Token Adaptativos: Hacia la Integración de Mecanismos de Fragmentación Humana en LLMs Multimodales


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Avances
Modelos de lenguaje multimodal de gran tamaño
Procesos cognitivos humanos
Enfoques computacionales
Metodologías de representación de tokens
Tokenización dinámica cruzada de modalidades

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los recientes avances en modelos de lenguaje multimodal grandes (MLLMs) han demostrado capacidades notables en el procesamiento de diversos tipos de datos, sin embargo, persisten disparidades significativas entre los procesos cognitivos humanos y los enfoques computacionales para la integración de información multimodal. Esta investigación presenta una investigación sistemática sobre los paralelismos entre los mecanismos de agrupamiento cruzado humano y las metodologías de representación de tokens en MLLMs. A través de estudios empíricos que comparan los patrones de rendimiento humano con los comportamientos del modelo en tareas visual-lingüísticas, demostramos que los esquemas de tokenización estática convencionales limitan fundamentalmente la capacidad de los modelos actuales para simular la naturaleza dinámica y sensible al contexto del procesamiento de información humano. Proponemos un nuevo marco para la tokenización cruzada dinámica que incorpora límites adaptativos, representaciones jerárquicas y mecanismos de alineación basados en principios de la ciencia cognitiva. Las evaluaciones cuantitativas demuestran que nuestro enfoque produce mejoras estadísticamente significativas sobre los modelos de última generación en tareas de referencia (+7.8% en Respuesta a Preguntas Visuales (p < 0.001), 5.3% en Descripción de Escenas Complejas) mientras exhibe patrones de error y distribuciones de atención más alineados con los humanos. Estos hallazgos contribuyen a la comprensión teórica de la relación entre la cognición humana y la inteligencia artificial, al tiempo que proporcionan evidencia empírica para el desarrollo de sistemas de IA más plausibles desde el punto de vista cognitivo.

Otros recursos que podrían interesarte

Temas Virtualpro