Un enfoque de aprendizaje del plan de estudios para la clasificación de texto de múltiples dominios utilizando la clasificación de peso de palabras clave
Autores: Yuan, Zilin; Li, Yinghui; Li, Yangning; Zheng, Hai-Tao; He, Yaobin; Liu, Wenqiang; Huang, Dongxiao; Wu, Bei
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un enfoque de aprendizaje del plan de estudios para la clasificación de texto de múltiples dominios utilizando la clasificación de peso de palabras clave
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Clasificación de texto
Conocimiento específico del dominio
Datos anotados
Modelos de clasificación de texto multi-dominio
Entrenamiento adversario
Peso de palabra clave
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
La clasificación de texto es una tarea bien establecida en el procesamiento del lenguaje natural, pero tiene dos limitaciones importantes. En primer lugar, la clasificación de texto depende en gran medida del conocimiento específico del dominio, lo que significa que un clasificador entrenado en un determinado corpus puede no funcionar bien cuando se le presenta texto de otro dominio. En segundo lugar, los modelos de clasificación de texto requieren cantidades sustanciales de datos anotados para el entrenamiento, y en ciertos dominios puede haber una cantidad insuficiente de datos etiquetados disponibles. En consecuencia, es esencial explorar métodos para utilizar de manera eficiente datos de texto de varios dominios para mejorar el rendimiento de los modelos en una variedad de dominios. Un enfoque para lograr esto es a través del uso de modelos de clasificación de texto multi-dominio que aprovechan el entrenamiento adversarial para extraer características compartidas entre todos los dominios, así como las características específicas de cada dominio. Tras observar la variada distinción de características específicas del dominio, nuestro artículo introduce un enfoque de aprendizaje de currículo utilizando un sistema de clasificación basado en el peso de las palabras clave para mejorar la eficacia de los modelos de clasificación de texto multi-dominio. Los datos experimentales de reseñas de Amazon y conjuntos de datos FDU-MTL muestran que nuestro método mejora significativamente la eficacia de los modelos de clasificación de texto multi-dominio que adoptan el aprendizaje adversarial y alcanzan resultados de vanguardia en estos dos conjuntos de datos.
Descripción
La clasificación de texto es una tarea bien establecida en el procesamiento del lenguaje natural, pero tiene dos limitaciones importantes. En primer lugar, la clasificación de texto depende en gran medida del conocimiento específico del dominio, lo que significa que un clasificador entrenado en un determinado corpus puede no funcionar bien cuando se le presenta texto de otro dominio. En segundo lugar, los modelos de clasificación de texto requieren cantidades sustanciales de datos anotados para el entrenamiento, y en ciertos dominios puede haber una cantidad insuficiente de datos etiquetados disponibles. En consecuencia, es esencial explorar métodos para utilizar de manera eficiente datos de texto de varios dominios para mejorar el rendimiento de los modelos en una variedad de dominios. Un enfoque para lograr esto es a través del uso de modelos de clasificación de texto multi-dominio que aprovechan el entrenamiento adversarial para extraer características compartidas entre todos los dominios, así como las características específicas de cada dominio. Tras observar la variada distinción de características específicas del dominio, nuestro artículo introduce un enfoque de aprendizaje de currículo utilizando un sistema de clasificación basado en el peso de las palabras clave para mejorar la eficacia de los modelos de clasificación de texto multi-dominio. Los datos experimentales de reseñas de Amazon y conjuntos de datos FDU-MTL muestran que nuestro método mejora significativamente la eficacia de los modelos de clasificación de texto multi-dominio que adoptan el aprendizaje adversarial y alcanzan resultados de vanguardia en estos dos conjuntos de datos.