Límites de Token Adaptativos: Hacia la Integración de Mecanismos de Fragmentación Humana en LLMs Multimodales
Autores: Yu, Dongxing
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Límites de Token Adaptativos: Hacia la Integración de Mecanismos de Fragmentación Humana en LLMs Multimodales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Avances
Modelos de lenguaje multimodal de gran tamaño
Procesos cognitivos humanos
Enfoques computacionales
Metodologías de representación de tokens
Tokenización dinámica cruzada de modalidades
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los recientes avances en modelos de lenguaje multimodal grandes (MLLMs) han demostrado capacidades notables en el procesamiento de diversos tipos de datos, sin embargo, persisten disparidades significativas entre los procesos cognitivos humanos y los enfoques computacionales para la integración de información multimodal. Esta investigación presenta una investigación sistemática sobre los paralelismos entre los mecanismos de agrupamiento cruzado humano y las metodologías de representación de tokens en MLLMs. A través de estudios empíricos que comparan los patrones de rendimiento humano con los comportamientos del modelo en tareas visual-lingüísticas, demostramos que los esquemas de tokenización estática convencionales limitan fundamentalmente la capacidad de los modelos actuales para simular la naturaleza dinámica y sensible al contexto del procesamiento de información humano. Proponemos un nuevo marco para la tokenización cruzada dinámica que incorpora límites adaptativos, representaciones jerárquicas y mecanismos de alineación basados en principios de la ciencia cognitiva. Las evaluaciones cuantitativas demuestran que nuestro enfoque produce mejoras estadísticamente significativas sobre los modelos de última generación en tareas de referencia (+7.8% en Respuesta a Preguntas Visuales (p < 0.001), 5.3% en Descripción de Escenas Complejas) mientras exhibe patrones de error y distribuciones de atención más alineados con los humanos. Estos hallazgos contribuyen a la comprensión teórica de la relación entre la cognición humana y la inteligencia artificial, al tiempo que proporcionan evidencia empírica para el desarrollo de sistemas de IA más plausibles desde el punto de vista cognitivo.
Descripción
Los recientes avances en modelos de lenguaje multimodal grandes (MLLMs) han demostrado capacidades notables en el procesamiento de diversos tipos de datos, sin embargo, persisten disparidades significativas entre los procesos cognitivos humanos y los enfoques computacionales para la integración de información multimodal. Esta investigación presenta una investigación sistemática sobre los paralelismos entre los mecanismos de agrupamiento cruzado humano y las metodologías de representación de tokens en MLLMs. A través de estudios empíricos que comparan los patrones de rendimiento humano con los comportamientos del modelo en tareas visual-lingüísticas, demostramos que los esquemas de tokenización estática convencionales limitan fundamentalmente la capacidad de los modelos actuales para simular la naturaleza dinámica y sensible al contexto del procesamiento de información humano. Proponemos un nuevo marco para la tokenización cruzada dinámica que incorpora límites adaptativos, representaciones jerárquicas y mecanismos de alineación basados en principios de la ciencia cognitiva. Las evaluaciones cuantitativas demuestran que nuestro enfoque produce mejoras estadísticamente significativas sobre los modelos de última generación en tareas de referencia (+7.8% en Respuesta a Preguntas Visuales (p < 0.001), 5.3% en Descripción de Escenas Complejas) mientras exhibe patrones de error y distribuciones de atención más alineados con los humanos. Estos hallazgos contribuyen a la comprensión teórica de la relación entre la cognición humana y la inteligencia artificial, al tiempo que proporcionan evidencia empírica para el desarrollo de sistemas de IA más plausibles desde el punto de vista cognitivo.