Un sistema de subasta inversa basado en aprendizaje por refuerzo que aplica políticas de precios inteligentes hacia estrategias de descarga de B5G
Autores: Kaltakis, Konstantinos; Dimos, Alexandros; Giannoulakis, Ioannis; Kafetzakis, Emmanouil; Skianis, Charalampos
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un sistema de subasta inversa basado en aprendizaje por refuerzo que aplica políticas de precios inteligentes hacia estrategias de descarga de B5G
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Políticas de fijación de precios inteligentes
Operadores de redes móviles
Red de acceso por radio de blockchain
Equipamiento de usuario
Aprendizaje profundo por refuerzo
Modelo de subasta inversa
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 51
Citaciones: Sin citaciones
En este documento, presentamos nuestro trabajo sobre el desarrollo de un módulo de Políticas de Precios Inteligentes diseñado específicamente para usuarios individuales y Operadores de Red Móvil (MNOs). Nuestro marco de trabajo operará en una red de acceso por radio blockchain de múltiples MNOs (B-RAN) y tiene la tarea de determinar precios para el intercambio de recursos entre usuarios y MNOs. Nuestro sofisticado sistema de precios adaptativos puede ajustarse a situaciones en las que el Equipo de Usuario (UE) se desplaza fuera del área de cobertura de su MNO sellando inmediatamente un contrato con un MNO diferente para cubrir las necesidades de los usuarios. De esta manera, nuestro objetivo es proporcionar incentivos financieros a los MNOs garantizando al mismo tiempo una optimización continua de la red para todas las partes involucradas. Nuestro sistema logra esto mediante el uso de aprendizaje profundo por refuerzo (DRL) para implementar un modelo de subasta inversa. En nuestro escenario de aprendizaje por refuerzo, los MNOs, actuando como agentes, entran en competencia e intentan ofertar el precio más atractivo basado en la solicitud del usuario, y según el sistema de recompensas, los agentes que no ganan en la ronda actual ajustarán sus estrategias en un intento por asegurar una victoria en rondas posteriores. Los hallazgos indicaron que combinar DRL con la teoría de subasta inversa ofrece un método más apropiado para abordar los desafíos de precios y ofertas, y además, los administradores pueden utilizar esta estrategia para obtener una ventaja notable seleccionando y ajustando dinámicamente sus métodos de acuerdo con las condiciones y requisitos individuales de la red.
Descripción
En este documento, presentamos nuestro trabajo sobre el desarrollo de un módulo de Políticas de Precios Inteligentes diseñado específicamente para usuarios individuales y Operadores de Red Móvil (MNOs). Nuestro marco de trabajo operará en una red de acceso por radio blockchain de múltiples MNOs (B-RAN) y tiene la tarea de determinar precios para el intercambio de recursos entre usuarios y MNOs. Nuestro sofisticado sistema de precios adaptativos puede ajustarse a situaciones en las que el Equipo de Usuario (UE) se desplaza fuera del área de cobertura de su MNO sellando inmediatamente un contrato con un MNO diferente para cubrir las necesidades de los usuarios. De esta manera, nuestro objetivo es proporcionar incentivos financieros a los MNOs garantizando al mismo tiempo una optimización continua de la red para todas las partes involucradas. Nuestro sistema logra esto mediante el uso de aprendizaje profundo por refuerzo (DRL) para implementar un modelo de subasta inversa. En nuestro escenario de aprendizaje por refuerzo, los MNOs, actuando como agentes, entran en competencia e intentan ofertar el precio más atractivo basado en la solicitud del usuario, y según el sistema de recompensas, los agentes que no ganan en la ronda actual ajustarán sus estrategias en un intento por asegurar una victoria en rondas posteriores. Los hallazgos indicaron que combinar DRL con la teoría de subasta inversa ofrece un método más apropiado para abordar los desafíos de precios y ofertas, y además, los administradores pueden utilizar esta estrategia para obtener una ventaja notable seleccionando y ajustando dinámicamente sus métodos de acuerdo con las condiciones y requisitos individuales de la red.