logo móvil
Contáctanos
Portada

Imagen de IA generada por ChatGPT

2026-04-09

Ayudando a los centros de datos a ofrecer un mayor rendimiento con menos hardware


Para mejorar la eficiencia de los centros de datos, a menudo se agrupan múltiples dispositivos de almacenamiento a través de una red para que muchas aplicaciones puedan compartirlos. Pero incluso con este agrupamiento, una capacidad significativa de los dispositivos permanece subutilizada debido a la variabilidad del rendimiento entre los dispositivos.

Investigadores del MIT han desarrollado ahora un sistema que mejora el rendimiento de los dispositivos de almacenamiento al manejar simultáneamente tres fuentes principales de variabilidad. Su enfoque ofrece mejoras de velocidad significativas en comparación con los métodos tradicionales que solo abordan una fuente de variabilidad a la vez.

El sistema utiliza una arquitectura de dos niveles, con un controlador central que toma decisiones generales sobre qué tareas realiza cada dispositivo de almacenamiento, y controladores locales para cada máquina que redirigen rápidamente los datos si ese dispositivo está experimentando dificultades.

El método, que puede adaptarse en tiempo real a las cargas de trabajo cambiantes, no requiere hardware especializado. Cuando los investigadores probaron este sistema en tareas realistas como el entrenamiento de modelos de IA y la compresión de imágenes, casi duplicó el rendimiento entregado por los enfoques tradicionales. Al equilibrar inteligentemente las cargas de trabajo de múltiples dispositivos de almacenamiento, el sistema puede aumentar la eficiencia global del centro de datos.

“Existe la tendencia a querer añadir más recursos para resolver un problema, pero eso no es sostenible en muchos sentidos. Queremos poder maximizar la longevidad de estos recursos muy costosos y con alta huella de carbono”, dice Gohar Chaudhry, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación (EECS) y autor principal de un artículo sobre esta técnica. “Con nuestra solución de software adaptativa, aún puedes extraer mucho rendimiento de tus dispositivos existentes antes de tener que desecharlos y comprar nuevos.”

Chaudhry está acompañado en el artículo por Ankit Bhardwaj, profesor asistente en la Universidad de Tufts; Zhenyuan Ruan PhD ’24; y el autor senior Adam Belay, profesor asociado de EECS y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT. La investigación será presentada en el Simposio USENIX sobre Diseño e Implementación de Sistemas en Red.

Aprovechando el rendimiento no utilizado

Las unidades de estado sólido (SSD) son dispositivos de almacenamiento digital de alto rendimiento que permiten a las aplicaciones leer y escribir datos. Por ejemplo, un SSD puede almacenar grandes conjuntos de datos y enviar rápidamente datos a un procesador para entrenar modelos de aprendizaje automático.

Agrupar múltiples SSD para que varias aplicaciones puedan compartirlos mejora la eficiencia, ya que no todas las aplicaciones necesitan usar toda la capacidad de un SSD en un momento dado. Pero no todos los SSD funcionan igual, y el dispositivo más lento puede limitar el rendimiento general del conjunto.

Estas ineficiencias se deben a la variabilidad en el hardware de los SSD y las tareas que realizan.

Para utilizar este rendimiento no aprovechado de los SSD, los investigadores desarrollaron Sandook, un sistema basado en software que aborda simultáneamente tres formas principales de variabilidad que afectan el rendimiento. “Sandook” es una palabra en urdu que significa “caja”, para significar “almacenamiento.”

Un tipo de variabilidad es causado por diferencias en la edad, el desgaste y la capacidad de los SSD que pueden haber sido comprados en diferentes momentos y a diferentes proveedores.

El segundo tipo de variabilidad se debe a la descoordinación entre las operaciones de lectura y escritura que ocurren en el mismo SSD. Para escribir nuevos datos en el dispositivo, el SSD debe borrar algunos datos existentes. Este proceso puede ralentizar las lecturas o recuperaciones de datos que ocurren al mismo tiempo.

La tercera fuente de variabilidad es la recolección de basura, un proceso de reunir y eliminar datos desactualizados para liberar espacio. Este proceso, que ralentiza las operaciones del SSD, se activa en intervalos aleatorios que el operador del centro de datos no puede controlar.

“No puedo asumir que todos los SSD se comportarán de manera idéntica durante todo mi ciclo de despliegue. Incluso si les doy a todos la misma carga de trabajo, algunos serán rezagados, lo que perjudica el rendimiento neto que puedo lograr,” explica Chaudhry.

Planificar globalmente, reaccionar localmente

Para manejar estas tres fuentes de variabilidad, Sandook utiliza una estructura de dos niveles. Un programador global optimiza la distribución de tareas para todo el conjunto, mientras que programadores más rápidos en cada SSD reaccionan a eventos urgentes y desvían operaciones de dispositivos congestionados.

El sistema supera los retrasos causados por la interferencia entre lecturas y escrituras rotando qué SSDs puede usar una aplicación para lecturas y escrituras. Esto reduce la probabilidad de que ocurran lecturas y escrituras simultáneamente en la misma máquina.

Sandook también perfila el rendimiento típico de cada SSD. Utiliza esta información para detectar cuándo la recolección de basura probablemente está ralentizando las operaciones. Una vez detectado, Sandook reduce la carga de trabajo en ese SSD desviando algunas tareas hasta que termina la recolección de basura.

“Si ese SSD está realizando recolección de basura y ya no puede manejar la misma carga de trabajo, quiero darle una carga menor y aumentar gradualmente las tareas otra vez. Queremos encontrar el punto ideal donde aún esté haciendo algo de trabajo y aprovechar ese rendimiento”, dice Chaudhry.

Los perfiles de los SSD también permiten que el controlador global de Sandook asigne cargas de trabajo de manera ponderada considerando las características y la capacidad de cada dispositivo.

Dado que el controlador global ve el panorama completo y los controladores locales reaccionan al instante, Sandook puede manejar simultáneamente formas de variabilidad que ocurren en diferentes escalas de tiempo. Por ejemplo, los retrasos por recolección de basura ocurren de forma repentina, mientras que la latencia causada por el desgaste se acumula durante muchos meses.

Los investigadores probaron Sandook en un conjunto de 10 SSD y evaluaron el sistema en cuatro tareas: ejecutar una base de datos, entrenar un modelo de aprendizaje automático, comprimir imágenes y almacenar datos de usuarios. Sandook aumentó el rendimiento de cada aplicación entre un 12 y un 94 por ciento en comparación con métodos estáticos, y mejoró la utilización general de la capacidad de SSD en un 23 por ciento.

El sistema permitió que los SSD lograran el 95 por ciento de su rendimiento teórico máximo, sin necesidad de hardware especializado ni actualizaciones específicas para aplicaciones.

“Nuestra solución dinámica puede liberar más rendimiento para todos los SSD y realmente llevarlos al límite. Cada bit de capacidad que puedas salvar realmente importa a esta escala,” afirma Chaudhry.

En el futuro, los investigadores desean incorporar nuevos protocolos disponibles en los SSD más recientes que ofrecen a los operadores más control sobre la ubicación de los datos. También quieren aprovechar la previsibilidad en las cargas de trabajo de IA para aumentar la eficiencia de las operaciones SSD.

“El almacenamiento flash es una tecnología poderosa que sostiene las aplicaciones modernas de centros de datos, pero compartir este recurso entre cargas de trabajo con demandas de rendimiento muy variadas sigue siendo un desafío pendiente. Este trabajo avanza notablemente con una solución elegante y práctica lista para su despliegue, acercando al almacenamiento flash a su máximo potencial en nubes de producción,” dice Josh Fried, ingeniero de software en Google y próximo profesor asistente en la Universidad de Pennsylvania, quien no participó en este trabajo.

Esta investigación fue financiada, en parte, por la Fundación Nacional de Ciencia, la Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU. y la Corporación de Investigación de Semiconductores.

Autor

Autor
Imagen MIT

MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...

Noticias más leídas

Otros recursos que podrían interesarte

Temas Virtualpro