Métricas de Evaluación del Rendimiento para LLMs Empáticos
Autores: Hong, Yuna; Ku, Bonhwa; Ko, Hanseok
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Métricas de Evaluación del Rendimiento para LLMs Empáticos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Avance
Modelos de lenguaje
Empático
Marco de evaluación
Expresión emocional
Relevancia contextual
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Con el rápido avance de los modelos de lenguaje grandes (LLMs), los sistemas recientes han demostrado una capacidad creciente para entender y expresar emociones humanas. Sin embargo, actualmente no existe una métrica objetiva y estandarizada para evaluar cuán empática es la respuesta de un LLM. Para abordar esta brecha, proponemos un nuevo marco de evaluación que mide tanto la alineación a nivel de sentimiento como a nivel de emoción entre una consulta de usuario y una respuesta generada por el modelo. La métrica propuesta consta de dos componentes. El componente de sentimiento evalúa la polaridad afectiva general a través de Sentlink y la naturalidad de la expresión emocional mediante NEmpathySort. El componente de emoción mide la correspondencia emocional detallada utilizando Emosight. Además, un componente semántico, basado en RAGAS, evalúa la relevancia contextual y la coherencia de la respuesta. Los resultados experimentales demuestran que nuestra métrica captura efectivamente tanto la intensidad como el matiz de la empatía en las respuestas generadas por LLM, proporcionando una base sólida para el desarrollo de una IA conversacional emocionalmente inteligente.
Descripción
Con el rápido avance de los modelos de lenguaje grandes (LLMs), los sistemas recientes han demostrado una capacidad creciente para entender y expresar emociones humanas. Sin embargo, actualmente no existe una métrica objetiva y estandarizada para evaluar cuán empática es la respuesta de un LLM. Para abordar esta brecha, proponemos un nuevo marco de evaluación que mide tanto la alineación a nivel de sentimiento como a nivel de emoción entre una consulta de usuario y una respuesta generada por el modelo. La métrica propuesta consta de dos componentes. El componente de sentimiento evalúa la polaridad afectiva general a través de Sentlink y la naturalidad de la expresión emocional mediante NEmpathySort. El componente de emoción mide la correspondencia emocional detallada utilizando Emosight. Además, un componente semántico, basado en RAGAS, evalúa la relevancia contextual y la coherencia de la respuesta. Los resultados experimentales demuestran que nuestra métrica captura efectivamente tanto la intensidad como el matiz de la empatía en las respuestas generadas por LLM, proporcionando una base sólida para el desarrollo de una IA conversacional emocionalmente inteligente.