Rekp: conocimiento externo refinado en sintonización de indicaciones para clasificación de texto de pocas muestras
Autores: Dang, Yuzhuo; Chen, Weijie; Zhang, Xin; Chen, Honghui
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Rekp: conocimiento externo refinado en sintonización de indicaciones para clasificación de texto de pocas muestras
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Clasificación de texto
Técnica de aprendizaje automático
Categorías predefinidas
Aprendizaje de pocas muestras
Ajuste de indicaciones
Clasificación de texto mejorada por conocimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
La clasificación de texto es una técnica de aprendizaje automático utilizada para asignar un texto dado a categorías predefinidas, facilitando el análisis automático y procesamiento de datos textuales. Sin embargo, un problema importante es que el número de nuevas categorías de texto está creciendo más rápido que el de los datos de anotación humana, lo que hace que muchas nuevas categorías de datos de texto carezcan de mucha información de anotación. Como resultado, la red neuronal profunda convencional se ve obligada a sobreajustarse, lo que daña la aplicación en el mundo real. Como solución a este problema, los académicos recomiendan abordar la escasez de datos a través del aprendizaje con pocas muestras. Uno de los métodos eficientes es el ajuste de indicaciones, que transforma el texto de entrada en un problema de predicción de máscara con [MASK]. Al utilizar descriptores, el modelo mapea las palabras de salida a etiquetas, lo que permite una predicción precisa. Sin embargo, los enfoques de adaptación basados en indicaciones anteriores a menudo dependían de verbalizadores producidos manualmente o de una sola etiqueta para representar todo el vocabulario de etiquetas, lo que hace que la granularidad del mapeo sea baja, lo que resulta en que las palabras no se mapeen con precisión a su etiqueta. Para abordar estos problemas, proponemos mejorar el verbalizador y construir el conocimiento externo refinado en un modelo de ajuste de indicaciones (REKP). Empleamos las bases de conocimiento externo para aumentar el espacio de mapeo de términos etiquetados y diseñamos tres métodos de refinamiento para eliminar datos ruidosos. Realizamos experimentos exhaustivos en cuatro conjuntos de datos de referencia, a saber, AG"s News, Yahoo, IMDB y Amazon. Los resultados demuestran que REKP puede superar a las líneas de base de vanguardia en términos de Micro-F1 en clasificación de texto mejorada con conocimiento. Además, realizamos un estudio de ablación para determinar la funcionalidad de cada módulo en nuestro modelo, revelando que el módulo de refinamiento contribuye significativamente a mejorar la precisión de clasificación.
Descripción
La clasificación de texto es una técnica de aprendizaje automático utilizada para asignar un texto dado a categorías predefinidas, facilitando el análisis automático y procesamiento de datos textuales. Sin embargo, un problema importante es que el número de nuevas categorías de texto está creciendo más rápido que el de los datos de anotación humana, lo que hace que muchas nuevas categorías de datos de texto carezcan de mucha información de anotación. Como resultado, la red neuronal profunda convencional se ve obligada a sobreajustarse, lo que daña la aplicación en el mundo real. Como solución a este problema, los académicos recomiendan abordar la escasez de datos a través del aprendizaje con pocas muestras. Uno de los métodos eficientes es el ajuste de indicaciones, que transforma el texto de entrada en un problema de predicción de máscara con [MASK]. Al utilizar descriptores, el modelo mapea las palabras de salida a etiquetas, lo que permite una predicción precisa. Sin embargo, los enfoques de adaptación basados en indicaciones anteriores a menudo dependían de verbalizadores producidos manualmente o de una sola etiqueta para representar todo el vocabulario de etiquetas, lo que hace que la granularidad del mapeo sea baja, lo que resulta en que las palabras no se mapeen con precisión a su etiqueta. Para abordar estos problemas, proponemos mejorar el verbalizador y construir el conocimiento externo refinado en un modelo de ajuste de indicaciones (REKP). Empleamos las bases de conocimiento externo para aumentar el espacio de mapeo de términos etiquetados y diseñamos tres métodos de refinamiento para eliminar datos ruidosos. Realizamos experimentos exhaustivos en cuatro conjuntos de datos de referencia, a saber, AG"s News, Yahoo, IMDB y Amazon. Los resultados demuestran que REKP puede superar a las líneas de base de vanguardia en términos de Micro-F1 en clasificación de texto mejorada con conocimiento. Además, realizamos un estudio de ablación para determinar la funcionalidad de cada módulo en nuestro modelo, revelando que el módulo de refinamiento contribuye significativamente a mejorar la precisión de clasificación.