Combinando trazado distribuido y de kernel para el análisis de rendimiento de aplicaciones en la nube
Autores: Gelle, Loïc; Ezzati-Jivan, Naser; Dagenais, Michel R.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Combinando trazado distribuido y de kernel para el análisis de rendimiento de aplicaciones en la nube
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Trazado distribuido
Aplicaciones en la nube
Latencia
Eventos a nivel de kernel
Contención de mutex
Análisis de ruta crítica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
El seguimiento distribuido permite rastrear las solicitudes de usuario que abarcan varios servicios y máquinas en una aplicación distribuida. Sin embargo, las aplicaciones en la nube típicas dependen de capas de abstracción que pueden ocultar la causa raíz de la latencia que ocurre entre procesos o en el kernel. Debido a su enfoque en eventos de alto nivel, las metodologías existentes en la aplicación de seguimiento distribuido pueden ser limitadas al intentar detectar conflictos complejos y relacionarlos con las solicitudes de origen. Los análisis a varios niveles que incluyen eventos a nivel de kernel son necesarios para depurar problemas tan comunes como la contención de mutex o disco, sin embargo, el análisis a varios niveles y la asociación de eventos en el kernel y datos de seguimiento distribuido es complejo y puede agregar mucha sobrecarga. Este documento describe una nueva solución para combinar el seguimiento distribuido con el seguimiento de software a bajo nivel para encontrar mejor la causa raíz de la latencia. Explicamos cómo logramos una colección de trazas híbrida para capturar y sincronizar eventos de solicitudes a nivel de kernel y distribuidas. Luego, presentamos nuestro diseño e implementación para un análisis de ruta crítica. Mostramos que nuestro análisis describe con precisión cómo cada solicitud pasa su tiempo y qué obstáculos hay en su ruta crítica mientras se limita la sobrecarga.
Descripción
El seguimiento distribuido permite rastrear las solicitudes de usuario que abarcan varios servicios y máquinas en una aplicación distribuida. Sin embargo, las aplicaciones en la nube típicas dependen de capas de abstracción que pueden ocultar la causa raíz de la latencia que ocurre entre procesos o en el kernel. Debido a su enfoque en eventos de alto nivel, las metodologías existentes en la aplicación de seguimiento distribuido pueden ser limitadas al intentar detectar conflictos complejos y relacionarlos con las solicitudes de origen. Los análisis a varios niveles que incluyen eventos a nivel de kernel son necesarios para depurar problemas tan comunes como la contención de mutex o disco, sin embargo, el análisis a varios niveles y la asociación de eventos en el kernel y datos de seguimiento distribuido es complejo y puede agregar mucha sobrecarga. Este documento describe una nueva solución para combinar el seguimiento distribuido con el seguimiento de software a bajo nivel para encontrar mejor la causa raíz de la latencia. Explicamos cómo logramos una colección de trazas híbrida para capturar y sincronizar eventos de solicitudes a nivel de kernel y distribuidas. Luego, presentamos nuestro diseño e implementación para un análisis de ruta crítica. Mostramos que nuestro análisis describe con precisión cómo cada solicitud pasa su tiempo y qué obstáculos hay en su ruta crítica mientras se limita la sobrecarga.