logo móvil
Contáctanos

Cuatro millones de segmentos y contando: Construyendo un corpus paralelo inglés-croata a través de la colaboración masiva utilizando una nueva plataforma basada en la gamificación

Autores: Jaworski, Rafa; Seljan, Sanja; Duner, Ivan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Cuatro millones de segmentos y contando: Construyendo un corpus paralelo inglés-croata a través de la colaboración masiva utilizando una nueva plataforma basada en la gamificación


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Corpus paralelos
Procesamiento de lenguaje natural
Traducción
Sistemas de traducción automática
Información multilingüe
Recopilación y almacenamiento de corpora

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los corpus paralelos se han utilizado ampliamente en los campos del procesamiento del lenguaje natural y la traducción, ya que proporcionan información multilingüe crucial. Se utilizan para entrenar sistemas de traducción automática, compilar diccionarios o generar incrustaciones de palabras interlingüísticas. Hay muchos corpus disponibles públicamente; sin embargo, el apoyo para algunos idiomas sigue siendo limitado. En este artículo, los autores presentan un marco para recopilar, organizar y almacenar corpus. La solución fue diseñada originalmente para obtener datos para idiomas con menos recursos, pero demostró funcionar muy bien para la recopilación de corpus específicos de dominio de alto valor. El escenario se basa en el trabajo colectivo de un grupo de personas que están motivadas por los medios de la gamificación. Las reglas del juego motivan a los participantes a enviar grandes recursos, y un proceso de revisión por pares garantiza la calidad. Hasta ahora se han recopilado más de cuatro millones de segmentos traducidos.

Otros recursos que podrían interesarte

Temas Virtualpro