Investigación sobre Secuencias de Entrada Comprimidas Basadas en la Tokenización de Compiladores

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Investigación sobre Secuencias de Entrada Comprimidas Basadas en la Tokenización de Compiladores

Autores: Li, Zhe; Lu, Xinxi

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Investigación sobre Secuencias de Entrada Comprimidas Basadas en la Tokenización de Compiladores

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aplicaciones

Modelos de lenguaje grandes

Inteligencia de código

Eficiencia de tokenización

Recursos contextuales

Método basado en compiladores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Las aplicaciones actuales de los modelos de lenguaje grandes (LLMs) en el campo de la inteligencia de código enfrentan problemas relacionados con la baja eficiencia de tokenización. Esto resulta en secuencias de tokens más largas para la entrada de tipos de código fuente, lo que lleva al desperdicio de recursos contextuales para modelos grandes. Además, la tecnología de tokenización de LLM existente tiene dificultades para garantizar la sinonimia contextual de las variables. Para abordar estos problemas, proponemos un método de secuencia de entrada comprimida basado en compiladores. Nos enfocamos en utilizar el analizador léxico del compilador para la tokenización preliminar de las declaraciones de entrada, seguido de la tokenización y filtrado a través del tokenizador del modelo grande. Este enfoque resulta en secuencias de tokens embebidos más cortas, semánticamente más claras y de mayor calidad. Luego, utilizando un diccionario contextual, los tokens reducidos pueden ser restaurados a su estado original en las declaraciones de salida. Los resultados experimentales muestran que nuestro método de secuencia de entrada comprimida puede ejecutarse sin problemas en escenarios de generación de código. En comparación con el modelo base, el método de tokenización basado en compiladores puede reducir el conteo de tokens de entrada en un 33.7%. Este estudio proporciona nuevas perspectivas para la aplicación de LLMs en el campo de la inteligencia de código.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro