Medición de estabilidad semántica: estimación estadística de proyecciones semánticas a través de incrustaciones de palabras
Autores: Arnau, Roger; Coronado Ferrer, Ana; González Cortés, Álvaro; Sánchez Arnau, Claudia; Sánchez Pérez, Enrique A.
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Medición de estabilidad semántica: estimación estadística de proyecciones semánticas a través de incrustaciones de palabras
Categoría
Matemáticas
Subcategoría
Análisis matemático
Palabras clave
Marco
Estabilidad
Proyecciones semánticas
Incrustaciones de palabras
Universo
Análisis semántico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Presentamos un nuevo marco para estudiar la estabilidad de proyecciones semánticas basadas en incrustaciones de palabras. A grandes rasgos, las proyecciones semánticas son índices que toman valores en el intervalo que miden cómo los términos comparten significado contextual con las palabras de un universo dado. Dado que existen muchas formas de definir tales proyecciones, es importante establecer un procedimiento para verificar si un grupo de ellas se comporta de manera similar. Además, al fijar una proyección en particular, es importante evaluar si las proyecciones promedio siguen siendo consistentes al reemplazar el universo original por uno similar que describa el mismo entorno semántico. El objetivo de este documento es abordar la falta de herramientas formales para evaluar la estabilidad de las proyecciones semánticas (es decir, su invarianza ante cambios formales que preserven el contexto semántico subyacente) en universos alternativos pero semánticamente relacionados en modelos de incrustación de palabras. Para abordar estos problemas, empleamos una combinación de métodos estadísticos e de IA, que incluyen análisis de correlación, agrupamiento, medidas de distancia chi-cuadrado, aproximaciones ponderadas y estimadores basados en Lipschitz. La metodología proporciona garantías teóricas bajo suposiciones matemáticas suaves, asegurando errores acotados en estimaciones de proyección basadas en la suposición de continuidad de Lipschitz. Demostramos la aplicabilidad práctica de nuestro enfoque a través de dos estudios de caso que involucran terminología agrícola en múltiples fuentes de datos (DOAJ, Scholar, Google y Arxiv). Nuestros resultados muestran que la estabilidad semántica puede ser evaluada cuantitativamente y que el modelado cuidadoso de las funciones de proyección y universos es crucial para un análisis semántico robusto en el procesamiento del lenguaje natural.
Descripción
Presentamos un nuevo marco para estudiar la estabilidad de proyecciones semánticas basadas en incrustaciones de palabras. A grandes rasgos, las proyecciones semánticas son índices que toman valores en el intervalo que miden cómo los términos comparten significado contextual con las palabras de un universo dado. Dado que existen muchas formas de definir tales proyecciones, es importante establecer un procedimiento para verificar si un grupo de ellas se comporta de manera similar. Además, al fijar una proyección en particular, es importante evaluar si las proyecciones promedio siguen siendo consistentes al reemplazar el universo original por uno similar que describa el mismo entorno semántico. El objetivo de este documento es abordar la falta de herramientas formales para evaluar la estabilidad de las proyecciones semánticas (es decir, su invarianza ante cambios formales que preserven el contexto semántico subyacente) en universos alternativos pero semánticamente relacionados en modelos de incrustación de palabras. Para abordar estos problemas, empleamos una combinación de métodos estadísticos e de IA, que incluyen análisis de correlación, agrupamiento, medidas de distancia chi-cuadrado, aproximaciones ponderadas y estimadores basados en Lipschitz. La metodología proporciona garantías teóricas bajo suposiciones matemáticas suaves, asegurando errores acotados en estimaciones de proyección basadas en la suposición de continuidad de Lipschitz. Demostramos la aplicabilidad práctica de nuestro enfoque a través de dos estudios de caso que involucran terminología agrícola en múltiples fuentes de datos (DOAJ, Scholar, Google y Arxiv). Nuestros resultados muestran que la estabilidad semántica puede ser evaluada cuantitativamente y que el modelado cuidadoso de las funciones de proyección y universos es crucial para un análisis semántico robusto en el procesamiento del lenguaje natural.