Optimización de la experiencia de calidad en línea basada en el aprendizaje en streaming de video multiagente
Autores: Wang, Yimeng; Agarwal, Mridul; Lan, Tian; Aggarwal, Vaneet
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Optimización de la experiencia de calidad en línea basada en el aprendizaje en streaming de video multiagente
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Transmisión de video
Recursos de red
Calidad de Experiencia
Aprendizaje profundo por refuerzo
Aprendizaje multiagente
Objetivos de QoE
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
La transmisión de video se ha convertido en un escenario de uso importante para Internet. La creciente popularidad de nuevas aplicaciones, como videos en 4K y de 360 grados, exige que los recursos de red se asignen cuidadosamente entre diferentes usuarios para lograr los objetivos óptimos de Calidad de Experiencia (QoE) y equidad. Esto resulta en un desafiante problema de optimización en línea, ya que las redes se vuelven cada vez más complejas y los objetivos relevantes de QoE son a menudo funciones no lineales. Recientemente, enfoques basados en datos, el Aprendizaje Profundo por Refuerzo (RL) en particular, se han aplicado con éxito a problemas de optimización de red al modelarlos como procesos de decisión de Markov. Sin embargo, los algoritmos de RL existentes que involucran múltiples agentes no logran abordar funciones objetivas no lineales en las recompensas de diferentes agentes. Con este fin, aprovechamos MAPG-finite, un algoritmo de gradiente de políticas diseñado para problemas de aprendizaje multiagente con objetivos no lineales. Nos permite optimizar las distribuciones de ancho de banda entre múltiples agentes y maximizar los objetivos de QoE y equidad en las recompensas de transmisión de video. Implementando el algoritmo propuesto, comparamos la estrategia MAPG-finite con varios baselines, incluidas políticas de aprendizaje estáticas, adaptativas y de un solo agente. Los resultados numéricos muestran que MAPG-finite supera significativamente a las estrategias de referencia con respecto a diferentes funciones objetivas y en varios entornos, incluidos videos de tasa de bits constante y adaptativa. Específicamente, nuestro algoritmo MAPG-finite maximiza la QoE y maximiza la equidad en comparación con el algoritmo SARSA estándar para un enlace de 2000 KB/s.
Descripción
La transmisión de video se ha convertido en un escenario de uso importante para Internet. La creciente popularidad de nuevas aplicaciones, como videos en 4K y de 360 grados, exige que los recursos de red se asignen cuidadosamente entre diferentes usuarios para lograr los objetivos óptimos de Calidad de Experiencia (QoE) y equidad. Esto resulta en un desafiante problema de optimización en línea, ya que las redes se vuelven cada vez más complejas y los objetivos relevantes de QoE son a menudo funciones no lineales. Recientemente, enfoques basados en datos, el Aprendizaje Profundo por Refuerzo (RL) en particular, se han aplicado con éxito a problemas de optimización de red al modelarlos como procesos de decisión de Markov. Sin embargo, los algoritmos de RL existentes que involucran múltiples agentes no logran abordar funciones objetivas no lineales en las recompensas de diferentes agentes. Con este fin, aprovechamos MAPG-finite, un algoritmo de gradiente de políticas diseñado para problemas de aprendizaje multiagente con objetivos no lineales. Nos permite optimizar las distribuciones de ancho de banda entre múltiples agentes y maximizar los objetivos de QoE y equidad en las recompensas de transmisión de video. Implementando el algoritmo propuesto, comparamos la estrategia MAPG-finite con varios baselines, incluidas políticas de aprendizaje estáticas, adaptativas y de un solo agente. Los resultados numéricos muestran que MAPG-finite supera significativamente a las estrategias de referencia con respecto a diferentes funciones objetivas y en varios entornos, incluidos videos de tasa de bits constante y adaptativa. Específicamente, nuestro algoritmo MAPG-finite maximiza la QoE y maximiza la equidad en comparación con el algoritmo SARSA estándar para un enlace de 2000 KB/s.