Wcc-jc 2.0: un corpus paralelo para la traducción neuronal japonés-chino rastreado en la web y alineado manualmente
Autores: Zhang, Jinyi; Tian, Ye; Mao, Jiannan; Han, Mei; Wen, Feng; Guo, Cong; Gao, Zhonghui; Matsumoto, Tadahiro
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Wcc-jc 2.0: un corpus paralelo para la traducción neuronal japonés-chino rastreado en la web y alineado manualmente
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Película
Subtítulos de TV
Corpus bilingüe japonés-chino
Modelos de traducción neuronal
Datos de texto de subtítulos
Rendimiento de la traducción
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Los subtítulos de películas y programas de televisión se emplean con frecuencia en aplicaciones de procesamiento del lenguaje natural (NLP), pero hay un acceso limitado a corpus bilingües japonés-chino como conjunto de datos para entrenar modelos de traducción automática neuronal (NMT). En nuestro estudio anterior, construimos de manera efectiva un corpus de un tamaño considerable que contiene datos de texto bilingüe en japonés y chino al recopilar datos de subtítulos de sitios web que alojan películas y series de televisión. El rendimiento de traducción insatisfactorio del corpus inicial, Corpus Web-Crawled de Japonés y Chino (WCC-JC 1.0), fue causado principalmente por el número limitado de pares de oraciones. Para abordar esta deficiencia, analizamos a fondo los problemas asociados con la construcción de WCC-JC 1.0 y creamos el corpus WCC-JC 2.0 al recolectar primero datos de subtítulos de películas y series de televisión. Luego, alineamos manualmente un gran número de pares de oraciones de alta calidad. Nuestros esfuerzos dieron como resultado un nuevo corpus que incluye alrededor de 1.4 millones de pares de oraciones, un aumento del 87% en comparación con WCC-JC 1.0. Como resultado, WCC-JC 2.0 ahora es uno de los corpus bilingües japonés-chino de acceso público más grandes del mundo. Para evaluar el rendimiento de WCC-JC 2.0, calculamos los puntajes BLEU en relación con otros corpus comparativos y realizamos evaluaciones manuales de los resultados de traducción generados por modelos de traducción entrenados en WCC-JC 2.0. Proporcionamos WCC-JC 2.0 como descarga gratuita únicamente para fines de investigación.
Descripción
Los subtítulos de películas y programas de televisión se emplean con frecuencia en aplicaciones de procesamiento del lenguaje natural (NLP), pero hay un acceso limitado a corpus bilingües japonés-chino como conjunto de datos para entrenar modelos de traducción automática neuronal (NMT). En nuestro estudio anterior, construimos de manera efectiva un corpus de un tamaño considerable que contiene datos de texto bilingüe en japonés y chino al recopilar datos de subtítulos de sitios web que alojan películas y series de televisión. El rendimiento de traducción insatisfactorio del corpus inicial, Corpus Web-Crawled de Japonés y Chino (WCC-JC 1.0), fue causado principalmente por el número limitado de pares de oraciones. Para abordar esta deficiencia, analizamos a fondo los problemas asociados con la construcción de WCC-JC 1.0 y creamos el corpus WCC-JC 2.0 al recolectar primero datos de subtítulos de películas y series de televisión. Luego, alineamos manualmente un gran número de pares de oraciones de alta calidad. Nuestros esfuerzos dieron como resultado un nuevo corpus que incluye alrededor de 1.4 millones de pares de oraciones, un aumento del 87% en comparación con WCC-JC 1.0. Como resultado, WCC-JC 2.0 ahora es uno de los corpus bilingües japonés-chino de acceso público más grandes del mundo. Para evaluar el rendimiento de WCC-JC 2.0, calculamos los puntajes BLEU en relación con otros corpus comparativos y realizamos evaluaciones manuales de los resultados de traducción generados por modelos de traducción entrenados en WCC-JC 2.0. Proporcionamos WCC-JC 2.0 como descarga gratuita únicamente para fines de investigación.