Extracción de Oraciones Pseudo-Paralelas Chino-Vietnamitas Basada en la Fusión de Información de Imágenes
Autores: Wen, Yonghua; Guo, Junjun; Yu, Zhiqiang; Yu, Zhengtao
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Extracción de Oraciones Pseudo-Paralelas Chino-Vietnamitas Basada en la Fusión de Información de Imágenes
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Oraciones paralelas
Tareas de PLN
Extracción de oraciones pseudo-paralelas
Lenguas de bajo recurso
Aprendizaje por transferencia
Fusión de información de imágenes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las oraciones paralelas juegan un papel crucial en varias tareas de procesamiento del lenguaje natural, particularmente en tareas multilingües como la traducción automática. Sin embargo, debido a la naturaleza laboriosa y que consume mucho tiempo de la construcción manual, muchos idiomas de bajos recursos aún sufren por la falta de datos paralelos a gran escala. El objetivo de la extracción de oraciones pseudo-paralelas es identificar automáticamente pares de oraciones en diferentes idiomas que transmitan significados similares. Los métodos anteriores dependían en gran medida de datos paralelos, lo cual no es adecuado para escenarios de bajos recursos. La dirección de investigación actual se centra en utilizar el aprendizaje por transferencia o el aprendizaje no supervisado basado en incrustaciones de palabras multilingües y modelos preentrenados multilingües; sin embargo, estos métodos son ineficaces para idiomas con diferencias sustanciales. Para abordar este problema, proponemos un método de extracción de oraciones que aprovecha la fusión de información de imágenes para extraer oraciones pseudo-paralelas chino-vietnamitas de colecciones de textos bilingües. Nuestro método primero emplea una estrategia de fusión de características de imagen y texto adaptativa para extraer de manera eficiente el par de oraciones paralelas bilingües, y luego se presenta un método de fusión multimodal para equilibrar la información entre las modalidades de imagen y texto. Los experimentos en múltiples puntos de referencia muestran que nuestro método logra resultados prometedores en comparación con una línea base competitiva al infundir información adicional de imágenes externas.
Descripción
Las oraciones paralelas juegan un papel crucial en varias tareas de procesamiento del lenguaje natural, particularmente en tareas multilingües como la traducción automática. Sin embargo, debido a la naturaleza laboriosa y que consume mucho tiempo de la construcción manual, muchos idiomas de bajos recursos aún sufren por la falta de datos paralelos a gran escala. El objetivo de la extracción de oraciones pseudo-paralelas es identificar automáticamente pares de oraciones en diferentes idiomas que transmitan significados similares. Los métodos anteriores dependían en gran medida de datos paralelos, lo cual no es adecuado para escenarios de bajos recursos. La dirección de investigación actual se centra en utilizar el aprendizaje por transferencia o el aprendizaje no supervisado basado en incrustaciones de palabras multilingües y modelos preentrenados multilingües; sin embargo, estos métodos son ineficaces para idiomas con diferencias sustanciales. Para abordar este problema, proponemos un método de extracción de oraciones que aprovecha la fusión de información de imágenes para extraer oraciones pseudo-paralelas chino-vietnamitas de colecciones de textos bilingües. Nuestro método primero emplea una estrategia de fusión de características de imagen y texto adaptativa para extraer de manera eficiente el par de oraciones paralelas bilingües, y luego se presenta un método de fusión multimodal para equilibrar la información entre las modalidades de imagen y texto. Los experimentos en múltiples puntos de referencia muestran que nuestro método logra resultados prometedores en comparación con una línea base competitiva al infundir información adicional de imágenes externas.