Cuatro millones de segmentos y contando: Construyendo un corpus paralelo inglés-croata a través de la colaboración masiva utilizando una nueva plataforma basada en la gamificación
Autores: Jaworski, Rafa; Seljan, Sanja; Duner, Ivan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Cuatro millones de segmentos y contando: Construyendo un corpus paralelo inglés-croata a través de la colaboración masiva utilizando una nueva plataforma basada en la gamificación
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Corpus paralelos
Procesamiento de lenguaje natural
Traducción
Sistemas de traducción automática
Información multilingüe
Recopilación y almacenamiento de corpora
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los corpus paralelos se han utilizado ampliamente en los campos del procesamiento del lenguaje natural y la traducción, ya que proporcionan información multilingüe crucial. Se utilizan para entrenar sistemas de traducción automática, compilar diccionarios o generar incrustaciones de palabras interlingüísticas. Hay muchos corpus disponibles públicamente; sin embargo, el apoyo para algunos idiomas sigue siendo limitado. En este artículo, los autores presentan un marco para recopilar, organizar y almacenar corpus. La solución fue diseñada originalmente para obtener datos para idiomas con menos recursos, pero demostró funcionar muy bien para la recopilación de corpus específicos de dominio de alto valor. El escenario se basa en el trabajo colectivo de un grupo de personas que están motivadas por los medios de la gamificación. Las reglas del juego motivan a los participantes a enviar grandes recursos, y un proceso de revisión por pares garantiza la calidad. Hasta ahora se han recopilado más de cuatro millones de segmentos traducidos.
Descripción
Los corpus paralelos se han utilizado ampliamente en los campos del procesamiento del lenguaje natural y la traducción, ya que proporcionan información multilingüe crucial. Se utilizan para entrenar sistemas de traducción automática, compilar diccionarios o generar incrustaciones de palabras interlingüísticas. Hay muchos corpus disponibles públicamente; sin embargo, el apoyo para algunos idiomas sigue siendo limitado. En este artículo, los autores presentan un marco para recopilar, organizar y almacenar corpus. La solución fue diseñada originalmente para obtener datos para idiomas con menos recursos, pero demostró funcionar muy bien para la recopilación de corpus específicos de dominio de alto valor. El escenario se basa en el trabajo colectivo de un grupo de personas que están motivadas por los medios de la gamificación. Las reglas del juego motivan a los participantes a enviar grandes recursos, y un proceso de revisión por pares garantiza la calidad. Hasta ahora se han recopilado más de cuatro millones de segmentos traducidos.