Mejorando la comprensión de lectura de máquinas con aprendizaje multitarea y autoentrenamiento
Autores: Ouyang, Jianquan; Fu, Mengen
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Mejorando la comprensión de lectura de máquinas con aprendizaje multitarea y autoentrenamiento
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Lectura de comprensión de máquinas
MRC
Extracción de fragmentos
Entrenamiento de fusión multi-tarea
Modelo de pre-entrenamiento BERT
Auto-entrenamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
La lectura comprensiva de máquinas (MRC) es un desafío de IA que requiere que las máquinas determinen la respuesta correcta a una pregunta basada en un pasaje dado, en el que MRC extractivo requiere extraer un fragmento de respuesta a una pregunta de un pasaje dado, como la tarea de extracción de fragmentos. En contraste, el MRC no extractivo infiere respuestas a partir del contenido de pasajes de referencia, incluyendo respuestas a preguntas de sí/no a preguntas sin respuesta. Debido a la especificidad de los dos tipos de tareas de MRC, los investigadores suelen trabajar en un tipo de tarea por separado, pero las situaciones de aplicación en la vida real a menudo requieren modelos que puedan manejar muchos tipos diferentes de tareas en paralelo. Por lo tanto, para cumplir con los requisitos integrales en tales situaciones de aplicación, construimos un modelo de lectura comprensiva de entrenamiento de fusión multi-tarea basado en el modelo de pre-entrenamiento BERT. El modelo utiliza el modelo de pre-entrenamiento BERT para obtener representaciones contextuales, que luego son compartidas por tres submódulos descendentes para extracción de fragmentos, respuesta a preguntas de sí/no y preguntas sin respuesta, luego fusionamos las salidas de los tres submódulos en una nueva salida de extracción de fragmentos y usamos la función de pérdida de entropía cruzada fusionada para el entrenamiento global. En la fase de entrenamiento, dado que nuestro modelo requiere una gran cantidad de datos de entrenamiento etiquetados, que a menudo son costosos de obtener o no están disponibles en muchas tareas, utilizamos adicionalmente el auto-entrenamiento para generar datos de entrenamiento pseudo-etiquetados para entrenar nuestro modelo y mejorar su precisión y rendimiento de generalización. Evaluamos los conjuntos de datos SQuAD2.0 y CAIL2019. Los experimentos muestran que nuestro modelo puede manejar eficientemente diferentes tareas. Logramos puntuaciones de 83.2EM y 86.7F1 en el conjunto de datos SQuAD2.0 y puntuaciones de 73.0EM y 85.3F1 en el conjunto de datos CAIL2019.
Descripción
La lectura comprensiva de máquinas (MRC) es un desafío de IA que requiere que las máquinas determinen la respuesta correcta a una pregunta basada en un pasaje dado, en el que MRC extractivo requiere extraer un fragmento de respuesta a una pregunta de un pasaje dado, como la tarea de extracción de fragmentos. En contraste, el MRC no extractivo infiere respuestas a partir del contenido de pasajes de referencia, incluyendo respuestas a preguntas de sí/no a preguntas sin respuesta. Debido a la especificidad de los dos tipos de tareas de MRC, los investigadores suelen trabajar en un tipo de tarea por separado, pero las situaciones de aplicación en la vida real a menudo requieren modelos que puedan manejar muchos tipos diferentes de tareas en paralelo. Por lo tanto, para cumplir con los requisitos integrales en tales situaciones de aplicación, construimos un modelo de lectura comprensiva de entrenamiento de fusión multi-tarea basado en el modelo de pre-entrenamiento BERT. El modelo utiliza el modelo de pre-entrenamiento BERT para obtener representaciones contextuales, que luego son compartidas por tres submódulos descendentes para extracción de fragmentos, respuesta a preguntas de sí/no y preguntas sin respuesta, luego fusionamos las salidas de los tres submódulos en una nueva salida de extracción de fragmentos y usamos la función de pérdida de entropía cruzada fusionada para el entrenamiento global. En la fase de entrenamiento, dado que nuestro modelo requiere una gran cantidad de datos de entrenamiento etiquetados, que a menudo son costosos de obtener o no están disponibles en muchas tareas, utilizamos adicionalmente el auto-entrenamiento para generar datos de entrenamiento pseudo-etiquetados para entrenar nuestro modelo y mejorar su precisión y rendimiento de generalización. Evaluamos los conjuntos de datos SQuAD2.0 y CAIL2019. Los experimentos muestran que nuestro modelo puede manejar eficientemente diferentes tareas. Logramos puntuaciones de 83.2EM y 86.7F1 en el conjunto de datos SQuAD2.0 y puntuaciones de 73.0EM y 85.3F1 en el conjunto de datos CAIL2019.