Superego Agente Personalizado y Alineado Constitucionalmente: Comportamiento de IA Segura Alineado a Diversos Valores Humanos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Superego Agente Personalizado y Alineado Constitucionalmente: Comportamiento de IA Segura Alineado a Diversos Valores Humanos

Autores: Watson, Nell; Amer, Ahmed; Harris, Evan; Ravindra, Preeti; Zhang, Shujun

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Superego Agente Personalizado y Alineado Constitucionalmente: Comportamiento de IA Segura Alineado a Diversos Valores Humanos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Agente

Personalizado

Alineación

Cumplimiento

Valores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los sistemas de IA agentiva, que poseen capacidades para la planificación y acción autónomas, muestran un gran potencial en diversos dominios. Sin embargo, su implementación práctica se ve obstaculizada por desafíos en la alineación de su comportamiento con los variados valores humanos, los complejos requisitos de seguridad y las necesidades específicas de cumplimiento. Las metodologías de alineación existentes a menudo fallan cuando se enfrentan a la compleja tarea de proporcionar un contexto personalizado sin inducir confabulación o ineficiencias operativas. Este documento presenta una solución novedosa: un agente "superego", diseñado como un mecanismo de supervisión personalizado para la IA agentiva. Este sistema dirige dinámicamente la planificación de la IA haciendo referencia a "Constituciones de Credo" seleccionadas por el usuario, que encapsulan diversos conjuntos de reglas, con niveles de adherencia ajustables para adaptarse a valores no negociables. Un validador de cumplimiento en tiempo real valida los planes contra estas constituciones y un piso ético universal antes de la ejecución. Presentamos un sistema funcional, que incluye una interfaz de demostración con un portal prototípico de intercambio de constituciones, y una integración exitosa con modelos de terceros a través del Protocolo de Contexto de Modelo (MCP). Evaluaciones de referencia exhaustivas (HarmBench, AgentHarm) demuestran que nuestro agente Superego reduce drásticamente las salidas dañinas, logrando hasta un 98.3% de reducción en la puntuación de daño y tasas de rechazo casi perfectas (por ejemplo, 100% con Claude Sonnet 4 en el conjunto dañino de AgentHarm) para los principales LLMs como Gemini 2.5 Flash y GPT-4o. Este enfoque simplifica sustancialmente la alineación personalizada de la IA, haciendo que los sistemas agentivos estén más sintonizados de manera confiable con los contextos individuales y culturales, al tiempo que permite mejoras sustanciales en la seguridad.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro