Aprendizaje profundo basado en refuerzo para la destilación de políticas RMSA en redes ópticas elásticas
Autores: Tang, Bixia; Huang, Yue-Cai; Xue, Yun; Zhou, Weixing
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje profundo basado en refuerzo para la destilación de políticas RMSA en redes ópticas elásticas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje por refuerzo
Enrutamiento
Modulación
Asignación de espectro
Asignación de recursos
Redes ópticas elásticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
El enrutamiento, la modulación y la asignación de espectro basados en el aprendizaje por refuerzo han sido considerados como un paradigma emergente para la asignación de recursos en las redes ópticas elásticas. Una limitación es que el proceso de aprendizaje depende en gran medida del entorno de entrenamiento, como el patrón de tráfico o la topología de la red óptica. Por lo tanto, se requiere volver a entrenar en caso de variaciones en la topología de la red o en el patrón de tráfico, lo que consume una gran cantidad de potencia de cálculo y tiempo. Para facilitar el requisito de volver a entrenar, proponemos un esquema de destilación de políticas, que destila el conocimiento de un modelo docente bien entrenado y luego transfiere el conocimiento al modelo de estudiante a entrenar, de modo que el entrenamiento de este último pueda acelerarse. Específicamente, el modelo docente se entrena para un entorno de entrenamiento (por ejemplo, la topología y el patrón de tráfico) y el modelo de estudiante para otro entorno de entrenamiento. Los resultados de la simulación indican que nuestro método propuesto puede acelerar efectivamente el proceso de entrenamiento del modelo de estudiante, e incluso conduce a una menor probabilidad de bloqueo, en comparación con el caso en que el modelo de estudiante se entrena sin destilación de conocimiento.
Descripción
El enrutamiento, la modulación y la asignación de espectro basados en el aprendizaje por refuerzo han sido considerados como un paradigma emergente para la asignación de recursos en las redes ópticas elásticas. Una limitación es que el proceso de aprendizaje depende en gran medida del entorno de entrenamiento, como el patrón de tráfico o la topología de la red óptica. Por lo tanto, se requiere volver a entrenar en caso de variaciones en la topología de la red o en el patrón de tráfico, lo que consume una gran cantidad de potencia de cálculo y tiempo. Para facilitar el requisito de volver a entrenar, proponemos un esquema de destilación de políticas, que destila el conocimiento de un modelo docente bien entrenado y luego transfiere el conocimiento al modelo de estudiante a entrenar, de modo que el entrenamiento de este último pueda acelerarse. Específicamente, el modelo docente se entrena para un entorno de entrenamiento (por ejemplo, la topología y el patrón de tráfico) y el modelo de estudiante para otro entorno de entrenamiento. Los resultados de la simulación indican que nuestro método propuesto puede acelerar efectivamente el proceso de entrenamiento del modelo de estudiante, e incluso conduce a una menor probabilidad de bloqueo, en comparación con el caso en que el modelo de estudiante se entrena sin destilación de conocimiento.