Wcc-jc 2.0: un corpus paralelo para la traducción neuronal japonés-chino rastreado en la web y alineado manualmente

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Wcc-jc 2.0: un corpus paralelo para la traducción neuronal japonés-chino rastreado en la web y alineado manualmente

Autores: Zhang, Jinyi; Tian, Ye; Mao, Jiannan; Han, Mei; Wen, Feng; Guo, Cong; Gao, Zhonghui; Matsumoto, Tadahiro

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Wcc-jc 2.0: un corpus paralelo para la traducción neuronal japonés-chino rastreado en la web y alineado manualmente

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Película

Subtítulos de TV

Corpus bilingüe japonés-chino

Modelos de traducción neuronal

Datos de texto de subtítulos

Rendimiento de la traducción

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones

Los subtítulos de películas y programas de televisión se emplean con frecuencia en aplicaciones de procesamiento del lenguaje natural (NLP), pero hay un acceso limitado a corpus bilingües japonés-chino como conjunto de datos para entrenar modelos de traducción automática neuronal (NMT). En nuestro estudio anterior, construimos de manera efectiva un corpus de un tamaño considerable que contiene datos de texto bilingüe en japonés y chino al recopilar datos de subtítulos de sitios web que alojan películas y series de televisión. El rendimiento de traducción insatisfactorio del corpus inicial, Corpus Web-Crawled de Japonés y Chino (WCC-JC 1.0), fue causado principalmente por el número limitado de pares de oraciones. Para abordar esta deficiencia, analizamos a fondo los problemas asociados con la construcción de WCC-JC 1.0 y creamos el corpus WCC-JC 2.0 al recolectar primero datos de subtítulos de películas y series de televisión. Luego, alineamos manualmente un gran número de pares de oraciones de alta calidad. Nuestros esfuerzos dieron como resultado un nuevo corpus que incluye alrededor de 1.4 millones de pares de oraciones, un aumento del 87% en comparación con WCC-JC 1.0. Como resultado, WCC-JC 2.0 ahora es uno de los corpus bilingües japonés-chino de acceso público más grandes del mundo. Para evaluar el rendimiento de WCC-JC 2.0, calculamos los puntajes BLEU en relación con otros corpus comparativos y realizamos evaluaciones manuales de los resultados de traducción generados por modelos de traducción entrenados en WCC-JC 2.0. Proporcionamos WCC-JC 2.0 como descarga gratuita únicamente para fines de investigación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro