Mejorando la clasificación de intenciones utilizando datos no etiquetados de grandes corpora

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la clasificación de intenciones utilizando datos no etiquetados de grandes corpora

Autores: Bercaru, Gabriel; Truic, Ciprian-Octavian; Chiru, Costin-Gabriel; Rebedea, Traian

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Mejorando la clasificación de intenciones utilizando datos no etiquetados de grandes corpora

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Clasificación de intenciones

Comprensión del lenguaje natural

Técnicas de aumento de datos

Vectores de características

Clasificación de texto

Aprendizaje semi-supervisado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones

La clasificación de intenciones es un componente central de un pipeline de comprensión del lenguaje natural (NLU) para agentes conversacionales. La calidad de dicho componente depende de la calidad de los datos de entrenamiento, sin embargo, para muchos escenarios de conversación, los datos pueden ser escasos; en estos escenarios, se utilizan técnicas de aumento de datos. Tener métodos generales de aumento de datos que puedan generalizarse a muchos conjuntos de datos es altamente deseable. El trabajo presentado en este documento se centra en dos componentes principales. En primer lugar, exploramos la influencia de varios vectores de características en la tarea de clasificación de intenciones utilizando las capacidades de clasificación de texto de RASA. La segunda parte de este trabajo consiste en un método genérico para aumentar de manera eficiente corpora textuales utilizando grandes conjuntos de datos de datos no etiquetados. El método propuesto es capaz de extraer de manera eficiente ejemplos similares a los que ya están presentes en corpora estándar de lenguaje natural. Los resultados experimentales muestran que el uso de nuestros métodos de aumento de corpus permite un aumento en la precisión de la clasificación de texto en configuraciones de pocas muestras. En particular, las ganancias en precisión aumentan hasta un 16% cuando el número de ejemplos etiquetados es muy bajo (por ejemplo, dos ejemplos). Creemos que nuestro método es importante para cualquier tarea de procesamiento del lenguaje natural (NLP) o NLU en la que los datos de entrenamiento etiquetados son escasos o costosos de obtener. Por último, ofrecemos algunas ideas sobre trabajos futuros, que tienen como objetivo combinar nuestro método propuesto con un enfoque de aprendizaje semi-supervisado.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro