Utilizando el modelo de difusión latente para acelerar la velocidad de muestreo y mejorar la calidad de generación de texto
Autores: Li, Chenyang; Zhang, Long; Zheng, Qiusheng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Utilizando el modelo de difusión latente para acelerar la velocidad de muestreo y mejorar la calidad de generación de texto
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelos de difusión
Datos discretos
LaDiffuSeq
Generación de texto
Vectores latentes
BERTScore
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Los modelos de difusión han logrado un tremendo éxito en la modelización de modalidades de datos continuos, como imágenes, audio y video, sin embargo, su aplicación en dominios de datos discretos (por ejemplo, lenguaje natural) ha sido limitada. Los métodos existentes representan principalmente el texto discreto en un espacio de difusión continuo, lo que conlleva una sobrecarga computacional significativa durante el entrenamiento y resulta en velocidades lentas de muestreo. Este artículo presenta LaDiffuSeq, un modelo de generación de texto basado en difusión latente que incorpora una estructura codificador-decodificador. Específicamente, primero emplea un codificador preentrenado para mapear secuencias compuestas por atributos y texto correspondiente en un espacio vectorial latente de baja dimensionalidad. Luego, sin la guía de un clasificador, realiza el proceso de difusión para el espacio latente correspondiente de la secuencia. Finalmente, se utiliza un decodificador preentrenado para decodificar los vectores latentes recién generados, produciendo textos objetivo relevantes a temas y con múltiples granularidades emocionales. En comparación con el modelo de referencia, DiffuSeq, este modelo logra mejoras en BERTScore de 0.105 y 0.009 en dos conjuntos de datos del mundo real (ChnSentiCorp y un conjunto de datos de debate), respectivamente; la perplejidad disminuye en 3.333 y 4.562; y cuadruplica efectivamente la velocidad de muestreo de generación de texto.
Descripción
Los modelos de difusión han logrado un tremendo éxito en la modelización de modalidades de datos continuos, como imágenes, audio y video, sin embargo, su aplicación en dominios de datos discretos (por ejemplo, lenguaje natural) ha sido limitada. Los métodos existentes representan principalmente el texto discreto en un espacio de difusión continuo, lo que conlleva una sobrecarga computacional significativa durante el entrenamiento y resulta en velocidades lentas de muestreo. Este artículo presenta LaDiffuSeq, un modelo de generación de texto basado en difusión latente que incorpora una estructura codificador-decodificador. Específicamente, primero emplea un codificador preentrenado para mapear secuencias compuestas por atributos y texto correspondiente en un espacio vectorial latente de baja dimensionalidad. Luego, sin la guía de un clasificador, realiza el proceso de difusión para el espacio latente correspondiente de la secuencia. Finalmente, se utiliza un decodificador preentrenado para decodificar los vectores latentes recién generados, produciendo textos objetivo relevantes a temas y con múltiples granularidades emocionales. En comparación con el modelo de referencia, DiffuSeq, este modelo logra mejoras en BERTScore de 0.105 y 0.009 en dos conjuntos de datos del mundo real (ChnSentiCorp y un conjunto de datos de debate), respectivamente; la perplejidad disminuye en 3.333 y 4.562; y cuadruplica efectivamente la velocidad de muestreo de generación de texto.