Mejorando el Diálogo de Juego de Roles Coherente con el Personaje con una Recompensa Emocional Verificable
Autores: Wang, Junqiao; Wu, Kunyu; Ouyang, Yuqi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Mejorando el Diálogo de Juego de Roles Coherente con el Personaje con una Recompensa Emocional Verificable
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Marco
VER
Emoción
CHARCO
LLMs
Persona
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento presenta un marco modular para diálogos de interpretación coherentes con el personaje y conscientes de las emociones, utilizando modelos de lenguaje grandes (LLMs), centrado en un novedoso objetivo de Recompensa Emocional Verificable (VER). Introducimos VER como una señal de estilo de refuerzo derivada de clasificadores de emociones congelados para proporcionar alineación tanto a nivel de turno como a nivel de diálogo, mitigando efectivamente la deriva emocional a lo largo de interacciones largas. Para amplificar los beneficios de VER, construimos Diálogos Coherentes con el Personaje (CHARCO), un conjunto de datos a gran escala de múltiples turnos con más de 230,000 diálogos, ricamente anotados con perfiles de persona, contextos semánticos y diez etiquetas emocionales. Nuestros experimentos muestran que el ajuste fino de LLMs en CHARCO mejora significativamente el impacto de VER, impulsando mejoras notables en la consistencia emocional, la fidelidad del rol y la coherencia del diálogo. A través de la evaluación que integra métricas de diversidad léxica, puntuación automática con GPT-4 y evaluaciones humanas, demostramos que la colaboración entre un conjunto de datos de múltiples turnos diseñado específicamente y el objetivo VER conduce a avances significativos en el campo de los agentes conversacionales alineados con la persona.
Descripción
Este documento presenta un marco modular para diálogos de interpretación coherentes con el personaje y conscientes de las emociones, utilizando modelos de lenguaje grandes (LLMs), centrado en un novedoso objetivo de Recompensa Emocional Verificable (VER). Introducimos VER como una señal de estilo de refuerzo derivada de clasificadores de emociones congelados para proporcionar alineación tanto a nivel de turno como a nivel de diálogo, mitigando efectivamente la deriva emocional a lo largo de interacciones largas. Para amplificar los beneficios de VER, construimos Diálogos Coherentes con el Personaje (CHARCO), un conjunto de datos a gran escala de múltiples turnos con más de 230,000 diálogos, ricamente anotados con perfiles de persona, contextos semánticos y diez etiquetas emocionales. Nuestros experimentos muestran que el ajuste fino de LLMs en CHARCO mejora significativamente el impacto de VER, impulsando mejoras notables en la consistencia emocional, la fidelidad del rol y la coherencia del diálogo. A través de la evaluación que integra métricas de diversidad léxica, puntuación automática con GPT-4 y evaluaciones humanas, demostramos que la colaboración entre un conjunto de datos de múltiples turnos diseñado específicamente y el objetivo VER conduce a avances significativos en el campo de los agentes conversacionales alineados con la persona.