logo móvil
Contáctanos

Investigación sobre Secuencias de Entrada Comprimidas Basadas en la Tokenización de Compiladores

Autores: Li, Zhe; Lu, Xinxi

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Investigación sobre Secuencias de Entrada Comprimidas Basadas en la Tokenización de Compiladores


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aplicaciones
Modelos de lenguaje grandes
Inteligencia de código
Eficiencia de tokenización
Recursos contextuales
Método basado en compiladores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las aplicaciones actuales de los modelos de lenguaje grandes (LLMs) en el campo de la inteligencia de código enfrentan problemas relacionados con la baja eficiencia de tokenización. Esto resulta en secuencias de tokens más largas para la entrada de tipos de código fuente, lo que lleva al desperdicio de recursos contextuales para modelos grandes. Además, la tecnología de tokenización de LLM existente tiene dificultades para garantizar la sinonimia contextual de las variables. Para abordar estos problemas, proponemos un método de secuencia de entrada comprimida basado en compiladores. Nos enfocamos en utilizar el analizador léxico del compilador para la tokenización preliminar de las declaraciones de entrada, seguido de la tokenización y filtrado a través del tokenizador del modelo grande. Este enfoque resulta en secuencias de tokens embebidos más cortas, semánticamente más claras y de mayor calidad. Luego, utilizando un diccionario contextual, los tokens reducidos pueden ser restaurados a su estado original en las declaraciones de salida. Los resultados experimentales muestran que nuestro método de secuencia de entrada comprimida puede ejecutarse sin problemas en escenarios de generación de código. En comparación con el modelo base, el método de tokenización basado en compiladores puede reducir el conteo de tokens de entrada en un 33.7%. Este estudio proporciona nuevas perspectivas para la aplicación de LLMs en el campo de la inteligencia de código.

Otros recursos que podrían interesarte

Temas Virtualpro