logo móvil
Contáctanos

Transferencia Cross-Lingüística de Marcado de Entidades Nombradas con Modelos de Lenguaje Grandes

Autores: Barakhnin, Vladimir; Mussabayev, Rustam; Mengliev, Davlatyor; Krassovitskiy, Alexander; Toleu, Alymzhan; Lyutaev, Daniil; Akhmetov, Iskander; Ibragimov, Bahodir

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Transferencia Cross-Lingüística de Marcado de Entidades Nombradas con Modelos de Lenguaje Grandes


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Reconocimiento de entidades nombradas multilingüe
NER
Traducción automática
Modelo de lenguaje
Etiquetas de entidad
Proyección de anotaciones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este artículo investiga el problema del reconocimiento de entidades nombradas (NER) en múltiples idiomas, que implica identificar automáticamente entidades como personas, organizaciones, ubicaciones y otros elementos estructurados en el texto. El NER de alta calidad generalmente requiere corpora anotados manualmente; sin embargo, para muchos idiomas de bajos recursos, dichos datos son escasos y costosos de producir. El estudio aborda la siguiente pregunta: ¿se pueden utilizar oraciones anotadas en un idioma para transferir la marcación NER a sus contrapartes traducidas automáticamente en otros idiomas? Para explorar esto, proponemos un enfoque basado en un modelo de lenguaje grande (LLM) que realiza dos tareas simultáneamente: traducir una oración fuente y generar etiquetas de entidad en formato BIOES para la salida traducida. Para mejorar la robustez y reducir la deriva semántica, se incorpora un paso de retrotraducción para verificar la preservación del significado comparando la oración fuente reconstruida con la original. El método propuesto se compara con dos enfoques de referencia: (1) proyección de anotaciones a través de traducción automática y (2) etiquetado automático utilizando herramientas NER preexistentes. El rendimiento se evalúa utilizando métricas estándar, incluyendo precisión, recuperación y puntuación F1. Los resultados experimentales demuestran que el enfoque basado en LLM proporciona un mecanismo práctico y eficiente para transferir anotaciones NER entre idiomas. Si bien el método logra un rendimiento fuerte y equilibrado, su calidad sigue siendo influenciada por la precisión de la traducción y la adherencia a las restricciones de anotación. Metodológicamente, el enfoque puede considerarse relativamente independiente del idioma, ya que se basa en las capacidades generales de LLM, un esquema de etiquetado universal y representaciones semánticas multilingües en lugar de un entrenamiento de modelo específico para cada idioma.

Otros recursos que podrían interesarte

Temas Virtualpro