Superego Agente Personalizado y Alineado Constitucionalmente: Comportamiento de IA Segura Alineado a Diversos Valores Humanos
Autores: Watson, Nell; Amer, Ahmed; Harris, Evan; Ravindra, Preeti; Zhang, Shujun
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Superego Agente Personalizado y Alineado Constitucionalmente: Comportamiento de IA Segura Alineado a Diversos Valores Humanos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Agente
IA
Personalizado
Alineación
Cumplimiento
Valores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los sistemas de IA agentiva, que poseen capacidades para la planificación y acción autónomas, muestran un gran potencial en diversos dominios. Sin embargo, su implementación práctica se ve obstaculizada por desafíos en la alineación de su comportamiento con los variados valores humanos, los complejos requisitos de seguridad y las necesidades específicas de cumplimiento. Las metodologías de alineación existentes a menudo fallan cuando se enfrentan a la compleja tarea de proporcionar un contexto personalizado sin inducir confabulación o ineficiencias operativas. Este documento presenta una solución novedosa: un agente "superego", diseñado como un mecanismo de supervisión personalizado para la IA agentiva. Este sistema dirige dinámicamente la planificación de la IA haciendo referencia a "Constituciones de Credo" seleccionadas por el usuario, que encapsulan diversos conjuntos de reglas, con niveles de adherencia ajustables para adaptarse a valores no negociables. Un validador de cumplimiento en tiempo real valida los planes contra estas constituciones y un piso ético universal antes de la ejecución. Presentamos un sistema funcional, que incluye una interfaz de demostración con un portal prototípico de intercambio de constituciones, y una integración exitosa con modelos de terceros a través del Protocolo de Contexto de Modelo (MCP). Evaluaciones de referencia exhaustivas (HarmBench, AgentHarm) demuestran que nuestro agente Superego reduce drásticamente las salidas dañinas, logrando hasta un 98.3% de reducción en la puntuación de daño y tasas de rechazo casi perfectas (por ejemplo, 100% con Claude Sonnet 4 en el conjunto dañino de AgentHarm) para los principales LLMs como Gemini 2.5 Flash y GPT-4o. Este enfoque simplifica sustancialmente la alineación personalizada de la IA, haciendo que los sistemas agentivos estén más sintonizados de manera confiable con los contextos individuales y culturales, al tiempo que permite mejoras sustanciales en la seguridad.
Descripción
Los sistemas de IA agentiva, que poseen capacidades para la planificación y acción autónomas, muestran un gran potencial en diversos dominios. Sin embargo, su implementación práctica se ve obstaculizada por desafíos en la alineación de su comportamiento con los variados valores humanos, los complejos requisitos de seguridad y las necesidades específicas de cumplimiento. Las metodologías de alineación existentes a menudo fallan cuando se enfrentan a la compleja tarea de proporcionar un contexto personalizado sin inducir confabulación o ineficiencias operativas. Este documento presenta una solución novedosa: un agente "superego", diseñado como un mecanismo de supervisión personalizado para la IA agentiva. Este sistema dirige dinámicamente la planificación de la IA haciendo referencia a "Constituciones de Credo" seleccionadas por el usuario, que encapsulan diversos conjuntos de reglas, con niveles de adherencia ajustables para adaptarse a valores no negociables. Un validador de cumplimiento en tiempo real valida los planes contra estas constituciones y un piso ético universal antes de la ejecución. Presentamos un sistema funcional, que incluye una interfaz de demostración con un portal prototípico de intercambio de constituciones, y una integración exitosa con modelos de terceros a través del Protocolo de Contexto de Modelo (MCP). Evaluaciones de referencia exhaustivas (HarmBench, AgentHarm) demuestran que nuestro agente Superego reduce drásticamente las salidas dañinas, logrando hasta un 98.3% de reducción en la puntuación de daño y tasas de rechazo casi perfectas (por ejemplo, 100% con Claude Sonnet 4 en el conjunto dañino de AgentHarm) para los principales LLMs como Gemini 2.5 Flash y GPT-4o. Este enfoque simplifica sustancialmente la alineación personalizada de la IA, haciendo que los sistemas agentivos estén más sintonizados de manera confiable con los contextos individuales y culturales, al tiempo que permite mejoras sustanciales en la seguridad.