logo móvil
Contáctanos

MiNgMatch-Un modelo N-gram rápido para la segmentación de palabras del idioma Ainu

Autores: Nowakowski, Karol; Ptaszynski, Michal; Masui, Fumito

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

MiNgMatch-Un modelo N-gram rápido para la segmentación de palabras del idioma Ainu


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Segmentación de palabras
Algoritmo
N-gramas léxicos
Modelado del lenguaje
Experimentos
Rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La segmentación de palabras es una tarea esencial en el procesamiento automático del lenguaje para idiomas donde no hay marcadores de límites de palabras explícitos, o donde las palabras ortográficas delimitadas por espacios son demasiado gruesas. En este artículo, presentamos el Segmentador MiNgMatch, un algoritmo de segmentación de palabras rápido, que reduce el problema de identificar los límites de las palabras a encontrar la secuencia más corta de n-gramas léxicos que coinciden con el texto de entrada. Para validar nuestro método en un escenario de bajos recursos que involucra datos extremadamente escasos, lo probamos con un pequeño corpus de texto en el idioma críticamente en peligro del pueblo Ainu que vive en las partes del norte de Japón. Además, realizamos una serie de experimentos comparando nuestro algoritmo con sistemas que utilizan técnicas de modelado del lenguaje basadas en n-gramas léxicos de última generación (a saber, el modelo Stupid Backoff y un modelo con suavizado modificado de Kneser-Ney), así como un modelo neural que realiza la segmentación de palabras como etiquetado de secuencias de caracteres. Los resultados experimentales que obtuvimos demuestran el alto rendimiento de nuestro algoritmo, comparable con los otros modelos de mejor rendimiento. Dado su bajo costo computacional y resultados competitivos, creemos que el enfoque propuesto podría extenderse a otros idiomas y posiblemente también a otras tareas de Procesamiento de Lenguaje Natural, como el reconocimiento de voz.

Otros recursos que podrían interesarte

Temas Virtualpro