Un método de resolución de discrepancias de tokenización que conserva el contexto para la desambiguación del sentido de las palabras en coreano basado en el Corpus Sejong y BERT
Autores: Jeong, Hanjo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un método de resolución de discrepancias de tokenización que conserva el contexto para la desambiguación del sentido de las palabras en coreano basado en el Corpus Sejong y BERT
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Desambiguación del sentido de las palabras
Procesamiento del lenguaje natural
Idioma coreano
Modelos pre-entrenados
Bert
Corpus sejong
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
La desambiguación de los sentidos de las palabras (Desambiguación de Sentidos de Palabras, WSD) desempeña un papel crucial en varias tareas de procesamiento de lenguaje natural (NLP), como la traducción automática, el análisis de sentimientos y la recuperación de información. Debido a la estructura morfológica compleja y la polisemia del idioma coreano, el significado de las palabras puede cambiar dependiendo del contexto, lo que hace que el problema de WSD sea desafiante. Dado que una sola palabra puede tener múltiples significados, distinguir con precisión entre ellos es esencial para mejorar el rendimiento de los modelos de NLP. Recientemente, modelos pre-entrenados a gran escala como BERT y GPT, basados en aprendizaje por transferencia, han mostrado resultados prometedores para abordar este problema. Sin embargo, para idiomas con estructuras morfológicas complejas, como el coreano, la falta de coincidencia en la tokenización entre los modelos pre-entrenados y los datos de ajuste fino evita que la información contextual y léxica aprendida por los modelos pre-entrenados se utilice completamente en las tareas posteriores. Este documento propone un método novedoso para abordar el problema de falta de coincidencia en la tokenización durante el ajuste fino de WSD en coreano, aprovechando modelos pre-entrenados basados en BERT y el corpus Sejong, que ha sido anotado por expertos en lenguaje. Los resultados experimentales utilizando varios modelos pre-entrenados basados en BERT y conjuntos de datos del corpus Sejong demuestran que el método propuesto mejora el rendimiento en aproximadamente un 3-5% en comparación con enfoques existentes.
Descripción
La desambiguación de los sentidos de las palabras (Desambiguación de Sentidos de Palabras, WSD) desempeña un papel crucial en varias tareas de procesamiento de lenguaje natural (NLP), como la traducción automática, el análisis de sentimientos y la recuperación de información. Debido a la estructura morfológica compleja y la polisemia del idioma coreano, el significado de las palabras puede cambiar dependiendo del contexto, lo que hace que el problema de WSD sea desafiante. Dado que una sola palabra puede tener múltiples significados, distinguir con precisión entre ellos es esencial para mejorar el rendimiento de los modelos de NLP. Recientemente, modelos pre-entrenados a gran escala como BERT y GPT, basados en aprendizaje por transferencia, han mostrado resultados prometedores para abordar este problema. Sin embargo, para idiomas con estructuras morfológicas complejas, como el coreano, la falta de coincidencia en la tokenización entre los modelos pre-entrenados y los datos de ajuste fino evita que la información contextual y léxica aprendida por los modelos pre-entrenados se utilice completamente en las tareas posteriores. Este documento propone un método novedoso para abordar el problema de falta de coincidencia en la tokenización durante el ajuste fino de WSD en coreano, aprovechando modelos pre-entrenados basados en BERT y el corpus Sejong, que ha sido anotado por expertos en lenguaje. Los resultados experimentales utilizando varios modelos pre-entrenados basados en BERT y conjuntos de datos del corpus Sejong demuestran que el método propuesto mejora el rendimiento en aproximadamente un 3-5% en comparación con enfoques existentes.