Mejorando las herramientas básicas de procesamiento de lenguaje natural para el idioma ainu
Autores: Nowakowski, Karol; Ptaszynski, Michal; Masui, Fumito; Momouchi, Yoshio
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Mejorando las herramientas básicas de procesamiento de lenguaje natural para el idioma ainu
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
En peligro
Idioma
Tecnología
Procesamiento
Diccionarios
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El ainu es una lengua en peligro crítico de extinción hablada por los habitantes nativos del norte de Japón. Este artículo describe nuestra investigación destinada al desarrollo de tecnología para el procesamiento automático de texto en ainu. En particular, mejoramos las herramientas existentes para la normalización de transcripciones antiguas, la segmentación de palabras y el etiquetado de partes del discurso. En los experimentos aplicamos dos diccionarios de la lengua ainu de diferentes dominios (literario y coloquial) y creamos un nuevo conjunto de datos combinándolos. Los experimentos revelaron que expandir el léxico tuvo un impacto positivo en el rendimiento general de nuestras herramientas, especialmente con datos de prueba no relacionados con ninguno de los conjuntos de entrenamiento utilizados.
Descripción
El ainu es una lengua en peligro crítico de extinción hablada por los habitantes nativos del norte de Japón. Este artículo describe nuestra investigación destinada al desarrollo de tecnología para el procesamiento automático de texto en ainu. En particular, mejoramos las herramientas existentes para la normalización de transcripciones antiguas, la segmentación de palabras y el etiquetado de partes del discurso. En los experimentos aplicamos dos diccionarios de la lengua ainu de diferentes dominios (literario y coloquial) y creamos un nuevo conjunto de datos combinándolos. Los experimentos revelaron que expandir el léxico tuvo un impacto positivo en el rendimiento general de nuestras herramientas, especialmente con datos de prueba no relacionados con ninguno de los conjuntos de entrenamiento utilizados.