Mejorando la comprensión de lectura de máquinas con aprendizaje multitarea y autoentrenamiento

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la comprensión de lectura de máquinas con aprendizaje multitarea y autoentrenamiento

Autores: Ouyang, Jianquan; Fu, Mengen

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Mejorando la comprensión de lectura de máquinas con aprendizaje multitarea y autoentrenamiento

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Lectura de comprensión de máquinas

MRC

Extracción de fragmentos

Entrenamiento de fusión multi-tarea

Modelo de pre-entrenamiento BERT

Auto-entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones

La lectura comprensiva de máquinas (MRC) es un desafío de IA que requiere que las máquinas determinen la respuesta correcta a una pregunta basada en un pasaje dado, en el que MRC extractivo requiere extraer un fragmento de respuesta a una pregunta de un pasaje dado, como la tarea de extracción de fragmentos. En contraste, el MRC no extractivo infiere respuestas a partir del contenido de pasajes de referencia, incluyendo respuestas a preguntas de sí/no a preguntas sin respuesta. Debido a la especificidad de los dos tipos de tareas de MRC, los investigadores suelen trabajar en un tipo de tarea por separado, pero las situaciones de aplicación en la vida real a menudo requieren modelos que puedan manejar muchos tipos diferentes de tareas en paralelo. Por lo tanto, para cumplir con los requisitos integrales en tales situaciones de aplicación, construimos un modelo de lectura comprensiva de entrenamiento de fusión multi-tarea basado en el modelo de pre-entrenamiento BERT. El modelo utiliza el modelo de pre-entrenamiento BERT para obtener representaciones contextuales, que luego son compartidas por tres submódulos descendentes para extracción de fragmentos, respuesta a preguntas de sí/no y preguntas sin respuesta, luego fusionamos las salidas de los tres submódulos en una nueva salida de extracción de fragmentos y usamos la función de pérdida de entropía cruzada fusionada para el entrenamiento global. En la fase de entrenamiento, dado que nuestro modelo requiere una gran cantidad de datos de entrenamiento etiquetados, que a menudo son costosos de obtener o no están disponibles en muchas tareas, utilizamos adicionalmente el auto-entrenamiento para generar datos de entrenamiento pseudo-etiquetados para entrenar nuestro modelo y mejorar su precisión y rendimiento de generalización. Evaluamos los conjuntos de datos SQuAD2.0 y CAIL2019. Los experimentos muestran que nuestro modelo puede manejar eficientemente diferentes tareas. Logramos puntuaciones de 83.2EM y 86.7F1 en el conjunto de datos SQuAD2.0 y puntuaciones de 73.0EM y 85.3F1 en el conjunto de datos CAIL2019.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro