Mejorando la clasificación de texto con la ampliación de datos basada en modelos de lenguaje grandes
Autores: Zhao, Huanhuan; Chen, Haihua; Ruggles, Thomas A.; Feng, Yunhe; Singh, Debjani; Yoon, Hong-Jun
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mejorando la clasificación de texto con la ampliación de datos basada en modelos de lenguaje grandes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelos de lenguaje
ChatGPT
Aumento de datos
Clasificación de texto
Conjuntos de datos
Efectividad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
Los Modelos de Lenguaje Grandes (LLMs) como ChatGPT poseen capacidades avanzadas para comprender y generar texto. Estas capacidades permiten a ChatGPT crear texto basado en instrucciones específicas, que pueden servir como datos aumentados para tareas de clasificación de texto. Los estudios previos han abordado la ampliación de datos (DA) ya sea reescribiendo el conjunto de datos existente con ChatGPT o generando datos completamente nuevos desde cero. Sin embargo, no está claro qué método es mejor sin comparar su efectividad. Este estudio investiga la aplicación de ambos métodos en dos conjuntos de datos: un conjunto de datos de tema general (datos de noticias de Reuters) y un conjunto de datos específico del dominio (conjunto de Mitigación). Nuestros hallazgos indican que: 1. Los datos nuevos generados por ChatGPT mejoraron consistentemente los resultados de clasificación del modelo para ambos conjuntos de datos. 2. Generar nuevos datos generalmente supera a la reescritura de datos existentes, aunque es crucial elaborar cuidadosamente las indicaciones para extraer la información más valiosa de ChatGPT, especialmente para datos específicos del dominio. 3. El tamaño de los datos de ampliación afecta la efectividad de la DA; sin embargo, observamos un plateau después de incorporar 10 muestras. 4. Combinar la muestra reescrita con la muestra generada nueva puede potencialmente mejorar aún más el rendimiento del modelo.
Descripción
Los Modelos de Lenguaje Grandes (LLMs) como ChatGPT poseen capacidades avanzadas para comprender y generar texto. Estas capacidades permiten a ChatGPT crear texto basado en instrucciones específicas, que pueden servir como datos aumentados para tareas de clasificación de texto. Los estudios previos han abordado la ampliación de datos (DA) ya sea reescribiendo el conjunto de datos existente con ChatGPT o generando datos completamente nuevos desde cero. Sin embargo, no está claro qué método es mejor sin comparar su efectividad. Este estudio investiga la aplicación de ambos métodos en dos conjuntos de datos: un conjunto de datos de tema general (datos de noticias de Reuters) y un conjunto de datos específico del dominio (conjunto de Mitigación). Nuestros hallazgos indican que: 1. Los datos nuevos generados por ChatGPT mejoraron consistentemente los resultados de clasificación del modelo para ambos conjuntos de datos. 2. Generar nuevos datos generalmente supera a la reescritura de datos existentes, aunque es crucial elaborar cuidadosamente las indicaciones para extraer la información más valiosa de ChatGPT, especialmente para datos específicos del dominio. 3. El tamaño de los datos de ampliación afecta la efectividad de la DA; sin embargo, observamos un plateau después de incorporar 10 muestras. 4. Combinar la muestra reescrita con la muestra generada nueva puede potencialmente mejorar aún más el rendimiento del modelo.