ChurnKB: una base de conocimientos enriquecida con IA generativa para la ingeniería de características de abandono de clientes
Autores: Shahabikargar, Maryam; Beheshti, Amin; Mansoor, Wathiq; Zhang, Xuyun; Foo, Eu Jin; Jolfaei, Alireza; Hanif, Ambreen; Shabani, Nasrin
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
ChurnKB: una base de conocimientos enriquecida con IA generativa para la ingeniería de características de abandono de clientes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Clientes
Análisis de rotación
Aprendizaje automático
Ingeniería de características
Rendimiento predictivo
Interacciones cliente-empresa
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Los clientes son la piedra angular del éxito empresarial en todas las industrias. Las empresas invierten recursos significativos en la adquisición de nuevos clientes y, lo que es más importante, en la retención de los existentes. Sin embargo, la pérdida de clientes sigue siendo un desafío importante, lo que conduce a pérdidas financieras sustanciales. Abordar este problema requiere una comprensión profunda del estado cognitivo y comportamental de los clientes, así como de los primeros signos de pérdida de clientes. El análisis predictivo y basado en Machine Learning (ML), cuando se entrena con características apropiadas indicativas del comportamiento y estado cognitivo del cliente, puede ser altamente efectivo para mitigar la pérdida de clientes. Un análisis de pérdida de clientes impulsado por ML robusto depende de un proceso de ingeniería de características bien desarrollado. Los estudios tradicionales de análisis de pérdida de clientes han dependido principalmente de características demográficas, de uso de productos y basadas en ingresos, pasando por alto las valiosas ideas incrustadas en las interacciones entre cliente y empresa. Reconociendo la importancia del conocimiento del dominio y la experiencia humana en la ingeniería de características y basándonos en nuestro trabajo anterior, proponemos la Base de Conocimiento Relacionada con la Pérdida de Clientes (ChurnKB) para mejorar la ingeniería de características para la predicción de la pérdida de clientes. ChurnKB utiliza técnicas de minería de datos textuales como Frecuencia de Término-Frecuencia Inversa de Documento (TF-IDF), similitud coseno, expresiones regulares, tokenización de palabras y derivación para identificar características relacionadas con la pérdida de clientes dentro del contenido generado por los clientes, incluidos correos electrónicos. Para enriquecer aún más la estructura de ChurnKB, integramos la IA Generativa, específicamente modelos de lenguaje grandes, que ofrecen flexibilidad en el manejo de texto no estructurado y descubrimiento de características latentes, para identificar y refinar características relacionadas con el estado cognitivo, emociones y comportamientos de los clientes. Además, se incorporan bucles de retroalimentación para validar y mejorar la efectividad de ChurnKB. La integración de características basadas en el conocimiento en modelos de aprendizaje automático (por ejemplo, Random Forest, Regresión Logística, Perceptrón Multicapa y XGBoost) mejora el rendimiento predictivo de los modelos de ML en comparación con el valor base, con el puntaje F1 de XGBoost aumentando de 0.5752 a 0.7891. Más allá de la predicción de la pérdida de clientes, este enfoque potencialmente respalda aplicaciones como el marketing personalizado, la detección de ciberacoso, la identificación de discursos de odio y el monitoreo de la salud mental, lo que demuestra su impacto más amplio en la inteligencia empresarial y la seguridad en línea.
Descripción
Los clientes son la piedra angular del éxito empresarial en todas las industrias. Las empresas invierten recursos significativos en la adquisición de nuevos clientes y, lo que es más importante, en la retención de los existentes. Sin embargo, la pérdida de clientes sigue siendo un desafío importante, lo que conduce a pérdidas financieras sustanciales. Abordar este problema requiere una comprensión profunda del estado cognitivo y comportamental de los clientes, así como de los primeros signos de pérdida de clientes. El análisis predictivo y basado en Machine Learning (ML), cuando se entrena con características apropiadas indicativas del comportamiento y estado cognitivo del cliente, puede ser altamente efectivo para mitigar la pérdida de clientes. Un análisis de pérdida de clientes impulsado por ML robusto depende de un proceso de ingeniería de características bien desarrollado. Los estudios tradicionales de análisis de pérdida de clientes han dependido principalmente de características demográficas, de uso de productos y basadas en ingresos, pasando por alto las valiosas ideas incrustadas en las interacciones entre cliente y empresa. Reconociendo la importancia del conocimiento del dominio y la experiencia humana en la ingeniería de características y basándonos en nuestro trabajo anterior, proponemos la Base de Conocimiento Relacionada con la Pérdida de Clientes (ChurnKB) para mejorar la ingeniería de características para la predicción de la pérdida de clientes. ChurnKB utiliza técnicas de minería de datos textuales como Frecuencia de Término-Frecuencia Inversa de Documento (TF-IDF), similitud coseno, expresiones regulares, tokenización de palabras y derivación para identificar características relacionadas con la pérdida de clientes dentro del contenido generado por los clientes, incluidos correos electrónicos. Para enriquecer aún más la estructura de ChurnKB, integramos la IA Generativa, específicamente modelos de lenguaje grandes, que ofrecen flexibilidad en el manejo de texto no estructurado y descubrimiento de características latentes, para identificar y refinar características relacionadas con el estado cognitivo, emociones y comportamientos de los clientes. Además, se incorporan bucles de retroalimentación para validar y mejorar la efectividad de ChurnKB. La integración de características basadas en el conocimiento en modelos de aprendizaje automático (por ejemplo, Random Forest, Regresión Logística, Perceptrón Multicapa y XGBoost) mejora el rendimiento predictivo de los modelos de ML en comparación con el valor base, con el puntaje F1 de XGBoost aumentando de 0.5752 a 0.7891. Más allá de la predicción de la pérdida de clientes, este enfoque potencialmente respalda aplicaciones como el marketing personalizado, la detección de ciberacoso, la identificación de discursos de odio y el monitoreo de la salud mental, lo que demuestra su impacto más amplio en la inteligencia empresarial y la seguridad en línea.