Mejorando la clasificación de texto con la ampliación de datos basada en modelos de lenguaje grandes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la clasificación de texto con la ampliación de datos basada en modelos de lenguaje grandes

Autores: Zhao, Huanhuan; Chen, Haihua; Ruggles, Thomas A.; Feng, Yunhe; Singh, Debjani; Yoon, Hong-Jun

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Mejorando la clasificación de texto con la ampliación de datos basada en modelos de lenguaje grandes

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelos de lenguaje

ChatGPT

Aumento de datos

Clasificación de texto

Conjuntos de datos

Efectividad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 42

Citaciones: Sin citaciones

Los Modelos de Lenguaje Grandes (LLMs) como ChatGPT poseen capacidades avanzadas para comprender y generar texto. Estas capacidades permiten a ChatGPT crear texto basado en instrucciones específicas, que pueden servir como datos aumentados para tareas de clasificación de texto. Los estudios previos han abordado la ampliación de datos (DA) ya sea reescribiendo el conjunto de datos existente con ChatGPT o generando datos completamente nuevos desde cero. Sin embargo, no está claro qué método es mejor sin comparar su efectividad. Este estudio investiga la aplicación de ambos métodos en dos conjuntos de datos: un conjunto de datos de tema general (datos de noticias de Reuters) y un conjunto de datos específico del dominio (conjunto de Mitigación). Nuestros hallazgos indican que: 1. Los datos nuevos generados por ChatGPT mejoraron consistentemente los resultados de clasificación del modelo para ambos conjuntos de datos. 2. Generar nuevos datos generalmente supera a la reescritura de datos existentes, aunque es crucial elaborar cuidadosamente las indicaciones para extraer la información más valiosa de ChatGPT, especialmente para datos específicos del dominio. 3. El tamaño de los datos de ampliación afecta la efectividad de la DA; sin embargo, observamos un plateau después de incorporar 10 muestras. 4. Combinar la muestra reescrita con la muestra generada nueva puede potencialmente mejorar aún más el rendimiento del modelo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro