Mejorando la Similaridad Semántica con Recursos Multilingües: Un Estudio en Bangla-Un Idioma de Bajos Recursos
Autores: Pandit, Rajat; Sengupta, Saptarshi; Naskar, Sudip Kumar; Dash, Niladri Sekhar; Sardar, Mohini Mohan
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Mejorando la Similaridad Semántica con Recursos Multilingües: Un Estudio en Bangla-Un Idioma de Bajos Recursos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Similitud semántica
Procesamiento del lenguaje natural
Comprensión automática
Lenguas con pocos recursos
Word2Vec
Recursos multilingües
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La similitud semántica es un problema de larga data en el procesamiento del lenguaje natural (NLP). Es un tema de gran interés, ya que su comprensión puede ofrecer una visión de cómo los seres humanos comprenden el significado y establecen asociaciones entre palabras. Sin embargo, cuando este problema se analiza desde el punto de vista de la comprensión por parte de las máquinas, particularmente para lenguas con pocos recursos, plantea un problema completamente diferente. En este artículo, se explora la similitud semántica en Bangla, un idioma con menos recursos. Para mejorar la situación en tales lenguas, se combinaron el método más rudimentario (basado en caminos) y el último método de vanguardia (Word2Vec) para el cálculo de la similitud semántica utilizando recursos multilingües en inglés, y los resultados obtenidos son realmente asombrosos. En el artículo presentado, se han explorado dos enfoques de similitud semántica en Bangla, a saber, el modelo basado en caminos y el modelo distribucional, y sus contrapartes multilingües se sintetizaron a la luz del WordNet y los corpora en inglés. Los métodos propuestos se evaluaron en un conjunto de datos que comprende 162 pares de palabras en Bangla, que fueron anotados por cinco evaluadores expertos. Los puntajes de correlación obtenidos entre las cuatro métricas y los puntajes de evaluación humana demuestran una mejora notable que el enfoque multilingüe aporta al proceso de cálculo de la similitud semántica para Bangla.
Descripción
La similitud semántica es un problema de larga data en el procesamiento del lenguaje natural (NLP). Es un tema de gran interés, ya que su comprensión puede ofrecer una visión de cómo los seres humanos comprenden el significado y establecen asociaciones entre palabras. Sin embargo, cuando este problema se analiza desde el punto de vista de la comprensión por parte de las máquinas, particularmente para lenguas con pocos recursos, plantea un problema completamente diferente. En este artículo, se explora la similitud semántica en Bangla, un idioma con menos recursos. Para mejorar la situación en tales lenguas, se combinaron el método más rudimentario (basado en caminos) y el último método de vanguardia (Word2Vec) para el cálculo de la similitud semántica utilizando recursos multilingües en inglés, y los resultados obtenidos son realmente asombrosos. En el artículo presentado, se han explorado dos enfoques de similitud semántica en Bangla, a saber, el modelo basado en caminos y el modelo distribucional, y sus contrapartes multilingües se sintetizaron a la luz del WordNet y los corpora en inglés. Los métodos propuestos se evaluaron en un conjunto de datos que comprende 162 pares de palabras en Bangla, que fueron anotados por cinco evaluadores expertos. Los puntajes de correlación obtenidos entre las cuatro métricas y los puntajes de evaluación humana demuestran una mejora notable que el enfoque multilingüe aporta al proceso de cálculo de la similitud semántica para Bangla.