logo móvil
Contáctanos

Mejorando la clasificación de intenciones utilizando datos no etiquetados de grandes corpora

Autores: Bercaru, Gabriel; Truic, Ciprian-Octavian; Chiru, Costin-Gabriel; Rebedea, Traian

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Mejorando la clasificación de intenciones utilizando datos no etiquetados de grandes corpora


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Clasificación de intenciones
Comprensión del lenguaje natural
Técnicas de aumento de datos
Vectores de características
Clasificación de texto
Aprendizaje semi-supervisado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones


Descripción
La clasificación de intenciones es un componente central de un pipeline de comprensión del lenguaje natural (NLU) para agentes conversacionales. La calidad de dicho componente depende de la calidad de los datos de entrenamiento, sin embargo, para muchos escenarios de conversación, los datos pueden ser escasos; en estos escenarios, se utilizan técnicas de aumento de datos. Tener métodos generales de aumento de datos que puedan generalizarse a muchos conjuntos de datos es altamente deseable. El trabajo presentado en este documento se centra en dos componentes principales. En primer lugar, exploramos la influencia de varios vectores de características en la tarea de clasificación de intenciones utilizando las capacidades de clasificación de texto de RASA. La segunda parte de este trabajo consiste en un método genérico para aumentar de manera eficiente corpora textuales utilizando grandes conjuntos de datos de datos no etiquetados. El método propuesto es capaz de extraer de manera eficiente ejemplos similares a los que ya están presentes en corpora estándar de lenguaje natural. Los resultados experimentales muestran que el uso de nuestros métodos de aumento de corpus permite un aumento en la precisión de la clasificación de texto en configuraciones de pocas muestras. En particular, las ganancias en precisión aumentan hasta un 16% cuando el número de ejemplos etiquetados es muy bajo (por ejemplo, dos ejemplos). Creemos que nuestro método es importante para cualquier tarea de procesamiento del lenguaje natural (NLP) o NLU en la que los datos de entrenamiento etiquetados son escasos o costosos de obtener. Por último, ofrecemos algunas ideas sobre trabajos futuros, que tienen como objetivo combinar nuestro método propuesto con un enfoque de aprendizaje semi-supervisado.

Otros recursos que podrían interesarte

Temas Virtualpro