logo móvil
Contáctanos

Wcc-jc 2.0: un corpus paralelo para la traducción neuronal japonés-chino rastreado en la web y alineado manualmente

Autores: Zhang, Jinyi; Tian, Ye; Mao, Jiannan; Han, Mei; Wen, Feng; Guo, Cong; Gao, Zhonghui; Matsumoto, Tadahiro

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Wcc-jc 2.0: un corpus paralelo para la traducción neuronal japonés-chino rastreado en la web y alineado manualmente


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Película
Subtítulos de TV
Corpus bilingüe japonés-chino
Modelos de traducción neuronal
Datos de texto de subtítulos
Rendimiento de la traducción

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones


Descripción
Los subtítulos de películas y programas de televisión se emplean con frecuencia en aplicaciones de procesamiento del lenguaje natural (NLP), pero hay un acceso limitado a corpus bilingües japonés-chino como conjunto de datos para entrenar modelos de traducción automática neuronal (NMT). En nuestro estudio anterior, construimos de manera efectiva un corpus de un tamaño considerable que contiene datos de texto bilingüe en japonés y chino al recopilar datos de subtítulos de sitios web que alojan películas y series de televisión. El rendimiento de traducción insatisfactorio del corpus inicial, Corpus Web-Crawled de Japonés y Chino (WCC-JC 1.0), fue causado principalmente por el número limitado de pares de oraciones. Para abordar esta deficiencia, analizamos a fondo los problemas asociados con la construcción de WCC-JC 1.0 y creamos el corpus WCC-JC 2.0 al recolectar primero datos de subtítulos de películas y series de televisión. Luego, alineamos manualmente un gran número de pares de oraciones de alta calidad. Nuestros esfuerzos dieron como resultado un nuevo corpus que incluye alrededor de 1.4 millones de pares de oraciones, un aumento del 87% en comparación con WCC-JC 1.0. Como resultado, WCC-JC 2.0 ahora es uno de los corpus bilingües japonés-chino de acceso público más grandes del mundo. Para evaluar el rendimiento de WCC-JC 2.0, calculamos los puntajes BLEU en relación con otros corpus comparativos y realizamos evaluaciones manuales de los resultados de traducción generados por modelos de traducción entrenados en WCC-JC 2.0. Proporcionamos WCC-JC 2.0 como descarga gratuita únicamente para fines de investigación.

Otros recursos que podrían interesarte

Temas Virtualpro