logo móvil
Contáctanos

LinguoNER: Un marco agnóstico al lenguaje para el reconocimiento de entidades nombradas en lenguas de bajos recursos con un enfoque en Yambeta

Autores: Tamla, Philippe; Donna, Stephane; Bigala, Tobias; Nde, Dilan; Abouh, Maxime Yves Julien Manifi; Freund, Florian

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

LinguoNER: Un marco agnóstico al lenguaje para el reconocimiento de entidades nombradas en lenguas de bajos recursos con un enfoque en Yambeta


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Bootstrapping
Reconocimiento de entidades nombradas
Lenguas de bajos recursos
Yambeta
Adquisición de corpus
Ajuste fino de transformadores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento presenta LinguoNER, un marco práctico y extensible para iniciar el Reconocimiento de Entidades Nombradas (NER) en lenguas extremadamente de bajos recursos, demostrado en Yambeta, una lengua bantú hablada por una comunidad minoritaria en Camerún. Debido a la escasez de recursos digitales y la ausencia de corpora anotados, Yambeta ha permanecido en gran medida subrepresentada en el Procesamiento del Lenguaje Natural (NLP). LinguoNER aborda esta brecha al proporcionar un flujo de trabajo metodológicamente transparente de extremo a extremo que integra la adquisición de corpus, la anotación automática impulsada por un gazetteer, el entrenamiento de tokenizadores, el ajuste fino de transformadores y la evaluación multinivel en entornos donde la anotación manual a gran escala es inviable. Usando un corpus derivado de la Biblia como punto de partida lingüísticamente estable, lanzamos el primer conjunto de datos de NER de Yambeta disponible públicamente (~25,000 tokens) anotado con el esquema CoNLL BIO y un esquema de entidad restringido (PER/LOC/ORG). Debido a que las etiquetas se generan a través de la anotación basada en diccionarios, el corpus se caracteriza mejor como estándar plateado; la credibilidad se fortalece a través de diccionarios registrados, registros de transparencia, validación con expertos en el proceso en subconjuntos muestreados y un análisis cualitativo complementario de errores. Además, entrenamos un tokenizador WordPiece dedicado a Yambeta que preserva los marcadores de tono y diacríticos, y ajustamos finamente un transformador bert-base-cased para la clasificación de tokens. En una división de prueba reservada, LinguoNER logra un fuerte rendimiento a nivel de token (Precisión = 0.989, Recall = 0.981, F1 = 0.985), superando sustancialmente una línea base de gazetteer solo de diccionario (F1 ~ 0.36). La evaluación por tipo de entidad indica además mejoras más allá de la coincidencia de forma superficial, mientras que los errores restantes están motivados lingüísticamente e involucran principalmente límites de entidades de múltiples palabras, construcciones aglutinativas y tokenización sensible al tono/diacríticos. Enfatizamos que los resultados están restringidos a un dominio bíblico y un espacio de etiquetas limitado, y deben interpretarse como evidencia de prueba de concepto en lugar de afirmaciones de amplia generalización fuera del dominio. En general, LinguoNER proporciona un plano reproducible para iniciar recursos de NER en lenguas subrepresentadas y apoya futuros trabajos sobre fuentes de corpora más amplias (por ejemplo, noticias, OPUS, JW300), lenguas africanas adicionales (por ejemplo, yoruba, igbo, bassa) y la creación iterativa de conjuntos de datos refinados por expertos y subconjuntos de estándar de oro.

Otros recursos que podrían interesarte

Temas Virtualpro