logo móvil
Contáctanos

Un método de resolución de discrepancias de tokenización que conserva el contexto para la desambiguación del sentido de las palabras en coreano basado en el Corpus Sejong y BERT

Autores: Jeong, Hanjo

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Un método de resolución de discrepancias de tokenización que conserva el contexto para la desambiguación del sentido de las palabras en coreano basado en el Corpus Sejong y BERT


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Desambiguación del sentido de las palabras
Procesamiento del lenguaje natural
Idioma coreano
Modelos pre-entrenados
Bert
Corpus sejong

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
La desambiguación de los sentidos de las palabras (Desambiguación de Sentidos de Palabras, WSD) desempeña un papel crucial en varias tareas de procesamiento de lenguaje natural (NLP), como la traducción automática, el análisis de sentimientos y la recuperación de información. Debido a la estructura morfológica compleja y la polisemia del idioma coreano, el significado de las palabras puede cambiar dependiendo del contexto, lo que hace que el problema de WSD sea desafiante. Dado que una sola palabra puede tener múltiples significados, distinguir con precisión entre ellos es esencial para mejorar el rendimiento de los modelos de NLP. Recientemente, modelos pre-entrenados a gran escala como BERT y GPT, basados en aprendizaje por transferencia, han mostrado resultados prometedores para abordar este problema. Sin embargo, para idiomas con estructuras morfológicas complejas, como el coreano, la falta de coincidencia en la tokenización entre los modelos pre-entrenados y los datos de ajuste fino evita que la información contextual y léxica aprendida por los modelos pre-entrenados se utilice completamente en las tareas posteriores. Este documento propone un método novedoso para abordar el problema de falta de coincidencia en la tokenización durante el ajuste fino de WSD en coreano, aprovechando modelos pre-entrenados basados en BERT y el corpus Sejong, que ha sido anotado por expertos en lenguaje. Los resultados experimentales utilizando varios modelos pre-entrenados basados en BERT y conjuntos de datos del corpus Sejong demuestran que el método propuesto mejora el rendimiento en aproximadamente un 3-5% en comparación con enfoques existentes.

Otros recursos que podrían interesarte

Temas Virtualpro