Un método de resolución de discrepancias de tokenización que conserva el contexto para la desambiguación del sentido de las palabras en coreano basado en el Corpus Sejong y BERT

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un método de resolución de discrepancias de tokenización que conserva el contexto para la desambiguación del sentido de las palabras en coreano basado en el Corpus Sejong y BERT

Autores: Jeong, Hanjo

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Un método de resolución de discrepancias de tokenización que conserva el contexto para la desambiguación del sentido de las palabras en coreano basado en el Corpus Sejong y BERT

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Desambiguación del sentido de las palabras

Procesamiento del lenguaje natural

Idioma coreano

Modelos pre-entrenados

Bert

Corpus sejong

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

La desambiguación de los sentidos de las palabras (Desambiguación de Sentidos de Palabras, WSD) desempeña un papel crucial en varias tareas de procesamiento de lenguaje natural (NLP), como la traducción automática, el análisis de sentimientos y la recuperación de información. Debido a la estructura morfológica compleja y la polisemia del idioma coreano, el significado de las palabras puede cambiar dependiendo del contexto, lo que hace que el problema de WSD sea desafiante. Dado que una sola palabra puede tener múltiples significados, distinguir con precisión entre ellos es esencial para mejorar el rendimiento de los modelos de NLP. Recientemente, modelos pre-entrenados a gran escala como BERT y GPT, basados en aprendizaje por transferencia, han mostrado resultados prometedores para abordar este problema. Sin embargo, para idiomas con estructuras morfológicas complejas, como el coreano, la falta de coincidencia en la tokenización entre los modelos pre-entrenados y los datos de ajuste fino evita que la información contextual y léxica aprendida por los modelos pre-entrenados se utilice completamente en las tareas posteriores. Este documento propone un método novedoso para abordar el problema de falta de coincidencia en la tokenización durante el ajuste fino de WSD en coreano, aprovechando modelos pre-entrenados basados en BERT y el corpus Sejong, que ha sido anotado por expertos en lenguaje. Los resultados experimentales utilizando varios modelos pre-entrenados basados en BERT y conjuntos de datos del corpus Sejong demuestran que el método propuesto mejora el rendimiento en aproximadamente un 3-5% en comparación con enfoques existentes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro