Investigación sobre Secuencias de Entrada Comprimidas Basadas en la Tokenización de Compiladores
Autores: Li, Zhe; Lu, Xinxi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Investigación sobre Secuencias de Entrada Comprimidas Basadas en la Tokenización de Compiladores
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aplicaciones
Modelos de lenguaje grandes
Inteligencia de código
Eficiencia de tokenización
Recursos contextuales
Método basado en compiladores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las aplicaciones actuales de los modelos de lenguaje grandes (LLMs) en el campo de la inteligencia de código enfrentan problemas relacionados con la baja eficiencia de tokenización. Esto resulta en secuencias de tokens más largas para la entrada de tipos de código fuente, lo que lleva al desperdicio de recursos contextuales para modelos grandes. Además, la tecnología de tokenización de LLM existente tiene dificultades para garantizar la sinonimia contextual de las variables. Para abordar estos problemas, proponemos un método de secuencia de entrada comprimida basado en compiladores. Nos enfocamos en utilizar el analizador léxico del compilador para la tokenización preliminar de las declaraciones de entrada, seguido de la tokenización y filtrado a través del tokenizador del modelo grande. Este enfoque resulta en secuencias de tokens embebidos más cortas, semánticamente más claras y de mayor calidad. Luego, utilizando un diccionario contextual, los tokens reducidos pueden ser restaurados a su estado original en las declaraciones de salida. Los resultados experimentales muestran que nuestro método de secuencia de entrada comprimida puede ejecutarse sin problemas en escenarios de generación de código. En comparación con el modelo base, el método de tokenización basado en compiladores puede reducir el conteo de tokens de entrada en un 33.7%. Este estudio proporciona nuevas perspectivas para la aplicación de LLMs en el campo de la inteligencia de código.
Descripción
Las aplicaciones actuales de los modelos de lenguaje grandes (LLMs) en el campo de la inteligencia de código enfrentan problemas relacionados con la baja eficiencia de tokenización. Esto resulta en secuencias de tokens más largas para la entrada de tipos de código fuente, lo que lleva al desperdicio de recursos contextuales para modelos grandes. Además, la tecnología de tokenización de LLM existente tiene dificultades para garantizar la sinonimia contextual de las variables. Para abordar estos problemas, proponemos un método de secuencia de entrada comprimida basado en compiladores. Nos enfocamos en utilizar el analizador léxico del compilador para la tokenización preliminar de las declaraciones de entrada, seguido de la tokenización y filtrado a través del tokenizador del modelo grande. Este enfoque resulta en secuencias de tokens embebidos más cortas, semánticamente más claras y de mayor calidad. Luego, utilizando un diccionario contextual, los tokens reducidos pueden ser restaurados a su estado original en las declaraciones de salida. Los resultados experimentales muestran que nuestro método de secuencia de entrada comprimida puede ejecutarse sin problemas en escenarios de generación de código. En comparación con el modelo base, el método de tokenización basado en compiladores puede reducir el conteo de tokens de entrada en un 33.7%. Este estudio proporciona nuevas perspectivas para la aplicación de LLMs en el campo de la inteligencia de código.