Geometría de la ampliación de datos textuales: perspectivas de modelos de lenguaje grandes
Autores: Feng, Sherry J. H.; Lai, Edmund M-K.; Li, Weihua
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Geometría de la ampliación de datos textuales: perspectivas de modelos de lenguaje grandes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aumento de datos
Modelos de clasificación de texto
Procesamiento del lenguaje natural
Modelos de lenguaje grandes
Perspectiva geométrica
Análisis topológico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
La aumentación de datos es crucial para mejorar el rendimiento de los modelos de clasificación de texto cuando los datos de entrenamiento etiquetados son escasos. Para las tareas de procesamiento del lenguaje natural (PLN), los modelos de lenguaje grandes (LLMs) pueden generar datos aumentados de alta calidad. Sin embargo, la comprensión fundamental de las razones de su efectividad sigue siendo limitada. Este artículo presenta una perspectiva geométrica y topológica sobre la aumentación de datos textuales utilizando LLMs. Comparamos los datos de aumentación generados por GPT-J con los generados a través de la similitud de coseno de los embeddings de Word2Vec y GloVe. El análisis topológico de datos revela que los datos generados por GPT-J mantienen coherencia de etiquetas. El análisis de envolvente convexa de estos datos representados por sus dos componentes principales muestra que se encuentran dentro de los límites espaciales de los datos de entrenamiento originales. La triangulación de Delaunay revela que aumentar el número de puntos de datos aumentados que están conectados dentro de estos límites se correlaciona con una mayor precisión de clasificación. Estos hallazgos proporcionan información sobre el rendimiento superior de los LLMs en la aumentación de datos. Se podría formar un marco para predecir la utilidad de los datos de aumentación basado en propiedades geométricas utilizando estas técnicas.
Descripción
La aumentación de datos es crucial para mejorar el rendimiento de los modelos de clasificación de texto cuando los datos de entrenamiento etiquetados son escasos. Para las tareas de procesamiento del lenguaje natural (PLN), los modelos de lenguaje grandes (LLMs) pueden generar datos aumentados de alta calidad. Sin embargo, la comprensión fundamental de las razones de su efectividad sigue siendo limitada. Este artículo presenta una perspectiva geométrica y topológica sobre la aumentación de datos textuales utilizando LLMs. Comparamos los datos de aumentación generados por GPT-J con los generados a través de la similitud de coseno de los embeddings de Word2Vec y GloVe. El análisis topológico de datos revela que los datos generados por GPT-J mantienen coherencia de etiquetas. El análisis de envolvente convexa de estos datos representados por sus dos componentes principales muestra que se encuentran dentro de los límites espaciales de los datos de entrenamiento originales. La triangulación de Delaunay revela que aumentar el número de puntos de datos aumentados que están conectados dentro de estos límites se correlaciona con una mayor precisión de clasificación. Estos hallazgos proporcionan información sobre el rendimiento superior de los LLMs en la aumentación de datos. Se podría formar un marco para predecir la utilidad de los datos de aumentación basado en propiedades geométricas utilizando estas técnicas.