AdaGram en Python: un marco de IA para incrustación de varios sentidos en texto y fórmulas científicas
Autores: Arokiaraj, Arun Josephraj; Ibrahim, Samah; Then, André; Ibrahim, Bashar; Peter, Stephan
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
AdaGram en Python: un marco de IA para incrustación de varios sentidos en texto y fórmulas científicas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Skip-gram adaptable
Algoritmo adagram
Incrustaciones de palabras
Significados contextuales
Polisemia
Reimplementación basada en Python
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
El algoritmo Skip-gram Adaptativo (AdaGram) amplía los embeddings tradicionales de palabras al aprender múltiples representaciones vectoriales por palabra, lo que permite capturar significados contextuales y polisemia. Originalmente implementado en Julia, AdaGram ha visto una adopción limitada debido a la fragmentación del ecosistema y a la escasez comparativa de las herramientas de aprendizaje automático de Julia en comparación con los marcos de trabajo maduros de Python. En este trabajo, presentamos una reimplementación de AdaGram basada en Python que facilita una integración más amplia con herramientas modernas de aprendizaje automático. Nuestra implementación amplía la aplicabilidad del modelo más allá del lenguaje natural, permitiendo el análisis de notación científica, en particular fórmulas químicas y físicas codificadas en LaTeX. Detallamos los fundamentos algorítmicos, el pipeline de preprocesamiento y las configuraciones de hiperparámetros necesarias para corpus interdisciplinarios. Las evaluaciones en textos del mundo real y fórmulas codificadas en LaTeX demuestran la efectividad de AdaGram en la desambiguación de sentidos de palabras no supervisada. Los análisis comparativos resaltan la importancia del diseño del corpus y la sintonización de parámetros. Esta implementación abre nuevas aplicaciones en motores de búsqueda de literatura conscientes de fórmulas, reducción de ambigüedad en la sumarización científica automatizada y alineación de conceptos interdisciplinarios.
Descripción
El algoritmo Skip-gram Adaptativo (AdaGram) amplía los embeddings tradicionales de palabras al aprender múltiples representaciones vectoriales por palabra, lo que permite capturar significados contextuales y polisemia. Originalmente implementado en Julia, AdaGram ha visto una adopción limitada debido a la fragmentación del ecosistema y a la escasez comparativa de las herramientas de aprendizaje automático de Julia en comparación con los marcos de trabajo maduros de Python. En este trabajo, presentamos una reimplementación de AdaGram basada en Python que facilita una integración más amplia con herramientas modernas de aprendizaje automático. Nuestra implementación amplía la aplicabilidad del modelo más allá del lenguaje natural, permitiendo el análisis de notación científica, en particular fórmulas químicas y físicas codificadas en LaTeX. Detallamos los fundamentos algorítmicos, el pipeline de preprocesamiento y las configuraciones de hiperparámetros necesarias para corpus interdisciplinarios. Las evaluaciones en textos del mundo real y fórmulas codificadas en LaTeX demuestran la efectividad de AdaGram en la desambiguación de sentidos de palabras no supervisada. Los análisis comparativos resaltan la importancia del diseño del corpus y la sintonización de parámetros. Esta implementación abre nuevas aplicaciones en motores de búsqueda de literatura conscientes de fórmulas, reducción de ambigüedad en la sumarización científica automatizada y alineación de conceptos interdisciplinarios.