MiNgMatch-Un modelo N-gram rápido para la segmentación de palabras del idioma Ainu

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

MiNgMatch-Un modelo N-gram rápido para la segmentación de palabras del idioma Ainu

Autores: Nowakowski, Karol; Ptaszynski, Michal; Masui, Fumito

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

MiNgMatch-Un modelo N-gram rápido para la segmentación de palabras del idioma Ainu

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Segmentación de palabras

Algoritmo

N-gramas léxicos

Modelado del lenguaje

Experimentos

Rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La segmentación de palabras es una tarea esencial en el procesamiento automático del lenguaje para idiomas donde no hay marcadores de límites de palabras explícitos, o donde las palabras ortográficas delimitadas por espacios son demasiado gruesas. En este artículo, presentamos el Segmentador MiNgMatch, un algoritmo de segmentación de palabras rápido, que reduce el problema de identificar los límites de las palabras a encontrar la secuencia más corta de n-gramas léxicos que coinciden con el texto de entrada. Para validar nuestro método en un escenario de bajos recursos que involucra datos extremadamente escasos, lo probamos con un pequeño corpus de texto en el idioma críticamente en peligro del pueblo Ainu que vive en las partes del norte de Japón. Además, realizamos una serie de experimentos comparando nuestro algoritmo con sistemas que utilizan técnicas de modelado del lenguaje basadas en n-gramas léxicos de última generación (a saber, el modelo Stupid Backoff y un modelo con suavizado modificado de Kneser-Ney), así como un modelo neural que realiza la segmentación de palabras como etiquetado de secuencias de caracteres. Los resultados experimentales que obtuvimos demuestran el alto rendimiento de nuestro algoritmo, comparable con los otros modelos de mejor rendimiento. Dado su bajo costo computacional y resultados competitivos, creemos que el enfoque propuesto podría extenderse a otros idiomas y posiblemente también a otras tareas de Procesamiento de Lenguaje Natural, como el reconocimiento de voz.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro