logo móvil
Contáctanos

Extracción de Oraciones Pseudo-Paralelas Chino-Vietnamitas Basada en la Fusión de Información de Imágenes

Autores: Wen, Yonghua; Guo, Junjun; Yu, Zhiqiang; Yu, Zhengtao

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Extracción de Oraciones Pseudo-Paralelas Chino-Vietnamitas Basada en la Fusión de Información de Imágenes


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Oraciones paralelas
Tareas de PLN
Extracción de oraciones pseudo-paralelas
Lenguas de bajo recurso
Aprendizaje por transferencia
Fusión de información de imágenes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las oraciones paralelas juegan un papel crucial en varias tareas de procesamiento del lenguaje natural, particularmente en tareas multilingües como la traducción automática. Sin embargo, debido a la naturaleza laboriosa y que consume mucho tiempo de la construcción manual, muchos idiomas de bajos recursos aún sufren por la falta de datos paralelos a gran escala. El objetivo de la extracción de oraciones pseudo-paralelas es identificar automáticamente pares de oraciones en diferentes idiomas que transmitan significados similares. Los métodos anteriores dependían en gran medida de datos paralelos, lo cual no es adecuado para escenarios de bajos recursos. La dirección de investigación actual se centra en utilizar el aprendizaje por transferencia o el aprendizaje no supervisado basado en incrustaciones de palabras multilingües y modelos preentrenados multilingües; sin embargo, estos métodos son ineficaces para idiomas con diferencias sustanciales. Para abordar este problema, proponemos un método de extracción de oraciones que aprovecha la fusión de información de imágenes para extraer oraciones pseudo-paralelas chino-vietnamitas de colecciones de textos bilingües. Nuestro método primero emplea una estrategia de fusión de características de imagen y texto adaptativa para extraer de manera eficiente el par de oraciones paralelas bilingües, y luego se presenta un método de fusión multimodal para equilibrar la información entre las modalidades de imagen y texto. Los experimentos en múltiples puntos de referencia muestran que nuestro método logra resultados prometedores en comparación con una línea base competitiva al infundir información adicional de imágenes externas.

Otros recursos que podrían interesarte

Temas Virtualpro