Revisiones selectivas de problemas de bandidos en IA a través de una perspectiva estadística
Autores: Zhou, Pengjie; Wei, Haoyu; Zhang, Huiming
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Revisiones selectivas de problemas de bandidos en IA a través de una perspectiva estadística
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje por refuerzo
Inteligencia artificial
Bandido multibrazo
Bandido multibrazo estocástico continuo
Compensación entre exploración y explotación
Análisis de arrepentimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
El Aprendizaje por Refuerzo (RL) es un área ampliamente investigada en inteligencia artificial que se centra en enseñar a los agentes a tomar decisiones a través de interacciones con su entorno. Un subconjunto clave incluye los problemas del bandido de múltiples brazos (MAB) y del bandido de múltiples brazos continuo estocástico (SCAB), que modelan la toma de decisiones secuenciales bajo incertidumbre. Esta revisión describe los modelos y suposiciones fundamentales de los problemas de bandidos, explora herramientas teóricas no asintóticas como desigualdades de concentración y límites de arrepentimiento minimax, y compara algoritmos frecuentistas y bayesianos para gestionar los compromisos entre exploración y explotación. Además, exploramos los bandidos contextuales de múltiples brazos y SCAB, centrándonos en sus metodologías y análisis de arrepentimiento. También examinamos las conexiones entre los problemas de SCAB y el análisis de datos funcionales. Por último, destacamos los avances recientes y los desafíos en curso en el campo.
Descripción
El Aprendizaje por Refuerzo (RL) es un área ampliamente investigada en inteligencia artificial que se centra en enseñar a los agentes a tomar decisiones a través de interacciones con su entorno. Un subconjunto clave incluye los problemas del bandido de múltiples brazos (MAB) y del bandido de múltiples brazos continuo estocástico (SCAB), que modelan la toma de decisiones secuenciales bajo incertidumbre. Esta revisión describe los modelos y suposiciones fundamentales de los problemas de bandidos, explora herramientas teóricas no asintóticas como desigualdades de concentración y límites de arrepentimiento minimax, y compara algoritmos frecuentistas y bayesianos para gestionar los compromisos entre exploración y explotación. Además, exploramos los bandidos contextuales de múltiples brazos y SCAB, centrándonos en sus metodologías y análisis de arrepentimiento. También examinamos las conexiones entre los problemas de SCAB y el análisis de datos funcionales. Por último, destacamos los avances recientes y los desafíos en curso en el campo.