logo móvil
Contáctanos

Investigando las Propiedades Estructurales de los Sesgos Lingüísticos en Modelos de Lenguaje Multilingües

Autores: Mantri, Raghav; Chen, Saun; Wang, Yixuan; Ataman, Duygu

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Investigando las Propiedades Estructurales de los Sesgos Lingüísticos en Modelos de Lenguaje Multilingües


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes
Transferencia cruzada entre lenguas
Estructura sintáctica
LLMs multilingües
Información estructural
Comparaciones estructurales basadas en atención

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
A medida que los modelos de lenguaje grandes (LLMs) se expanden para cubrir más idiomas, su potencial para apoyar entornos de bajos recursos se vuelve cada vez más prometedor. Sin embargo, los mecanismos subyacentes a la transferencia entre lenguas y los factores que la facilitan siguen siendo insuficientemente comprendidos. Trabajos anteriores han destacado el papel de la similitud lingüística, particularmente la estructura sintáctica, en la habilitación de la transferencia entre idiomas. En este estudio, presentamos un amplio análisis empírico de cómo los LLMs multilingües codifican y relacionan información estructural a través de idiomas con diferentes propiedades tipológicas. Combinamos múltiples métodos complementarios, incluyendo análisis de similitud de estados ocultos, correlación tipológica, sondeo de características sintácticas y comparaciones estructurales basadas en atención, a través de cuatro modelos multilingües y trece idiomas. Nuestros hallazgos muestran correlaciones consistentes entre la similitud representacional y la relación sintáctica, sugiriendo que las propiedades estructurales del lenguaje influyen en cómo se organiza y comparte la información entre idiomas. Además, observamos que las estructuras derivadas de la atención exhiben una alineación parcial con la sintaxis de referencia, aunque esta alineación debe interpretarse como heurística en lugar de evidencia directa de codificación sintáctica. En general, nuestros resultados proporcionan una perspectiva empírica comparativa sobre el sesgo estructural entre lenguas en los LLMs multilingües y destacan la importancia de una interpretación metodológica cuidadosa al vincular la geometría de la representación con la estructura lingüística.

Otros recursos que podrían interesarte

Temas Virtualpro