SemanticHPC: Flujos de trabajo conscientes de la semántica y del hardware para el entrenamiento distribuido de IA en arquitecturas de HPC
Autores: Amato, Alba
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
SemanticHPC: Flujos de trabajo conscientes de la semántica y del hardware para el entrenamiento distribuido de IA en arquitecturas de HPC
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Computación de alto rendimiento
Inteligencia artificial
Coherencia semántica
Aprendizaje profundo distribuido
Arquitecturas HPC heterogéneas
Tecnologías semánticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La computación de alto rendimiento (HPC) se ha vuelto esencial para el entrenamiento de modelos de inteligencia artificial (IA) de mediana y gran escala, sin embargo, dos cuellos de botella siguen estando poco explotados: la coherencia semántica de los datos de entrenamiento y la interacción entre los entornos de aprendizaje profundo distribuidos y las arquitecturas HPC heterogéneas. El trabajo existente tiende a optimizar el entrenamiento multi-nodo y multi-GPU de forma aislada de la semántica de los datos o a aplicar tecnologías semánticas a la curación de datos sin considerar las limitaciones del entrenamiento a gran escala en clústeres modernos. Este documento presenta SemanticHPC, un marco experimental que integra el preprocesamiento semántico basado en ontologías y en el marco de descripción de recursos (RDF) con el entrenamiento de IA distribuido (Horovod/PyTorch Distributed Data Parallel) y optimizaciones conscientes del hardware para el acceso a memoria no uniforme (NUMA), multi-GPU y conexiones de alta velocidad. El marco ha sido evaluado en configuraciones de 1 a 8 nodos (4-32 GPUs) en un clúster de grado de producción. Los experimentos en una carga de trabajo de tamaño medio de Open Images V7 muestran que el enriquecimiento semántico mejora la precisión de validación en 3.5-4.4 puntos porcentuales absolutos, manteniendo la sobrecarga adicional de extremo a extremo por debajo del 8% y preservando una eficiencia de escalado fuerte por encima del 79% en ocho nodos. Argumentamos que incorporar tecnologías semánticas en el flujo de trabajo de entrenamiento, en lugar de tratarlas como una fase desconectada y fuera de línea, es una dirección prometedora para la IA a gran escala en sistemas HPC. Detallamos una implementación basada en bibliotecas estándar de Python, herramientas RDF y entornos de aprendizaje profundo ampliamente adoptados, y discutimos las limitaciones y obstáculos prácticos que deben abordarse para una adopción más amplia.
Descripción
La computación de alto rendimiento (HPC) se ha vuelto esencial para el entrenamiento de modelos de inteligencia artificial (IA) de mediana y gran escala, sin embargo, dos cuellos de botella siguen estando poco explotados: la coherencia semántica de los datos de entrenamiento y la interacción entre los entornos de aprendizaje profundo distribuidos y las arquitecturas HPC heterogéneas. El trabajo existente tiende a optimizar el entrenamiento multi-nodo y multi-GPU de forma aislada de la semántica de los datos o a aplicar tecnologías semánticas a la curación de datos sin considerar las limitaciones del entrenamiento a gran escala en clústeres modernos. Este documento presenta SemanticHPC, un marco experimental que integra el preprocesamiento semántico basado en ontologías y en el marco de descripción de recursos (RDF) con el entrenamiento de IA distribuido (Horovod/PyTorch Distributed Data Parallel) y optimizaciones conscientes del hardware para el acceso a memoria no uniforme (NUMA), multi-GPU y conexiones de alta velocidad. El marco ha sido evaluado en configuraciones de 1 a 8 nodos (4-32 GPUs) en un clúster de grado de producción. Los experimentos en una carga de trabajo de tamaño medio de Open Images V7 muestran que el enriquecimiento semántico mejora la precisión de validación en 3.5-4.4 puntos porcentuales absolutos, manteniendo la sobrecarga adicional de extremo a extremo por debajo del 8% y preservando una eficiencia de escalado fuerte por encima del 79% en ocho nodos. Argumentamos que incorporar tecnologías semánticas en el flujo de trabajo de entrenamiento, en lugar de tratarlas como una fase desconectada y fuera de línea, es una dirección prometedora para la IA a gran escala en sistemas HPC. Detallamos una implementación basada en bibliotecas estándar de Python, herramientas RDF y entornos de aprendizaje profundo ampliamente adoptados, y discutimos las limitaciones y obstáculos prácticos que deben abordarse para una adopción más amplia.