Pre-entrenamiento y ajuste fino con predicción de la siguiente oración para el enlace de entidades multimodal
Autores: Li, Lu; Wang, Qipeng; Zhao, Baohua; Li, Xinwei; Zhou, Aihua; Wu, Hanqian
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Pre-entrenamiento y ajuste fino con predicción de la siguiente oración para el enlace de entidades multimodal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Campo de investigación
Vinculación de entidades multimodales
Representaciones conjuntas
Relación
Pre-entrenamiento
Generalización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Como un campo emergente de investigación, cada vez más investigadores están dirigiendo su atención hacia el enlace de entidades multimodales (MEL). Sin embargo, los trabajos anteriores siempre se centran en obtener representaciones conjuntas de menciones y entidades y luego determinar la relación entre menciones y entidades a través de estas representaciones. Esto significa que sus modelos suelen ser muy complejos y resultar en la ignorancia de la relación entre la información modal diferente de diferentes corpus. Para resolver los problemas anteriores, propusimos un paradigma de pre-entrenamiento y ajuste fino para MEL. Diseñamos tres categorías diferentes de tareas de NSP para pre-entrenamiento, es decir, mixto-modal, solo texto y multimodal, y duplicamos la cantidad de datos para pre-entrenamiento intercambiando los roles de las oraciones en NSP. Nuestros resultados experimentales muestran que nuestro modelo supera a otros modelos de referencia y nuestras estrategias de pre-entrenamiento contribuyen todas a la mejora de los resultados. Además, nuestro pre-entrenamiento dota al modelo final de una fuerte capacidad de generalización que funciona bien incluso con cantidades más pequeñas de datos.
Descripción
Como un campo emergente de investigación, cada vez más investigadores están dirigiendo su atención hacia el enlace de entidades multimodales (MEL). Sin embargo, los trabajos anteriores siempre se centran en obtener representaciones conjuntas de menciones y entidades y luego determinar la relación entre menciones y entidades a través de estas representaciones. Esto significa que sus modelos suelen ser muy complejos y resultar en la ignorancia de la relación entre la información modal diferente de diferentes corpus. Para resolver los problemas anteriores, propusimos un paradigma de pre-entrenamiento y ajuste fino para MEL. Diseñamos tres categorías diferentes de tareas de NSP para pre-entrenamiento, es decir, mixto-modal, solo texto y multimodal, y duplicamos la cantidad de datos para pre-entrenamiento intercambiando los roles de las oraciones en NSP. Nuestros resultados experimentales muestran que nuestro modelo supera a otros modelos de referencia y nuestras estrategias de pre-entrenamiento contribuyen todas a la mejora de los resultados. Además, nuestro pre-entrenamiento dota al modelo final de una fuerte capacidad de generalización que funciona bien incluso con cantidades más pequeñas de datos.