MiNgMatch-Un modelo N-gram rápido para la segmentación de palabras del idioma Ainu
Autores: Nowakowski, Karol; Ptaszynski, Michal; Masui, Fumito
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
MiNgMatch-Un modelo N-gram rápido para la segmentación de palabras del idioma Ainu
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Segmentación de palabras
Algoritmo
N-gramas léxicos
Modelado del lenguaje
Experimentos
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La segmentación de palabras es una tarea esencial en el procesamiento automático del lenguaje para idiomas donde no hay marcadores de límites de palabras explícitos, o donde las palabras ortográficas delimitadas por espacios son demasiado gruesas. En este artículo, presentamos el Segmentador MiNgMatch, un algoritmo de segmentación de palabras rápido, que reduce el problema de identificar los límites de las palabras a encontrar la secuencia más corta de n-gramas léxicos que coinciden con el texto de entrada. Para validar nuestro método en un escenario de bajos recursos que involucra datos extremadamente escasos, lo probamos con un pequeño corpus de texto en el idioma críticamente en peligro del pueblo Ainu que vive en las partes del norte de Japón. Además, realizamos una serie de experimentos comparando nuestro algoritmo con sistemas que utilizan técnicas de modelado del lenguaje basadas en n-gramas léxicos de última generación (a saber, el modelo Stupid Backoff y un modelo con suavizado modificado de Kneser-Ney), así como un modelo neural que realiza la segmentación de palabras como etiquetado de secuencias de caracteres. Los resultados experimentales que obtuvimos demuestran el alto rendimiento de nuestro algoritmo, comparable con los otros modelos de mejor rendimiento. Dado su bajo costo computacional y resultados competitivos, creemos que el enfoque propuesto podría extenderse a otros idiomas y posiblemente también a otras tareas de Procesamiento de Lenguaje Natural, como el reconocimiento de voz.
Descripción
La segmentación de palabras es una tarea esencial en el procesamiento automático del lenguaje para idiomas donde no hay marcadores de límites de palabras explícitos, o donde las palabras ortográficas delimitadas por espacios son demasiado gruesas. En este artículo, presentamos el Segmentador MiNgMatch, un algoritmo de segmentación de palabras rápido, que reduce el problema de identificar los límites de las palabras a encontrar la secuencia más corta de n-gramas léxicos que coinciden con el texto de entrada. Para validar nuestro método en un escenario de bajos recursos que involucra datos extremadamente escasos, lo probamos con un pequeño corpus de texto en el idioma críticamente en peligro del pueblo Ainu que vive en las partes del norte de Japón. Además, realizamos una serie de experimentos comparando nuestro algoritmo con sistemas que utilizan técnicas de modelado del lenguaje basadas en n-gramas léxicos de última generación (a saber, el modelo Stupid Backoff y un modelo con suavizado modificado de Kneser-Ney), así como un modelo neural que realiza la segmentación de palabras como etiquetado de secuencias de caracteres. Los resultados experimentales que obtuvimos demuestran el alto rendimiento de nuestro algoritmo, comparable con los otros modelos de mejor rendimiento. Dado su bajo costo computacional y resultados competitivos, creemos que el enfoque propuesto podría extenderse a otros idiomas y posiblemente también a otras tareas de Procesamiento de Lenguaje Natural, como el reconocimiento de voz.