Aprovechando los LLMs para la Predicción de Calificaciones de Usuarios a partir de Reseñas Textuales: Un Estudio de Caso de Anotación de Datos en Hospitalidad
Autores: Nnanna, Patricia; Amujo, Olasoji; Ezenkwu, Chinedu Pascal; Ibeke, Ebuka
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprovechando los LLMs para la Predicción de Calificaciones de Usuarios a partir de Reseñas Textuales: Un Estudio de Caso de Anotación de Datos en Hospitalidad
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Contenido generado por usuarios
Reseñas en línea
Sistemas de recomendación
Datos de entrenamiento
Anotadores humanos
Fuentes de anotación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La proliferación de contenido generado por los usuarios en el paisaje digital actual ha aumentado aún más la dependencia de las reseñas en línea como fuente para la toma de decisiones en la industria de la hospitalidad. Ha habido un interés creciente en automatizar este mecanismo de apoyo a la decisión a través de sistemas de recomendación. Sin embargo, este proceso a menudo requiere una gran cantidad de corpus etiquetado para entrenar un algoritmo efectivo, lo que hace necesario el uso de anotadores humanos para desarrollar datos de entrenamiento, donde esto es escaso. Aunque la anotación manual puede ser útil para enriquecer el corpus de entrenamiento, puede, por un lado, introducir errores y sesgos de los anotadores, incluyendo subjetividad y sesgo cultural, lo que puede afectar la calidad de los datos y la equidad en el modelo. Este artículo examina la alineación de las calificaciones derivadas de diferentes fuentes de anotación y las calificaciones originales proporcionadas por los clientes, que se tratan como la verdad fundamental. El artículo compara las predicciones de los modelos de Transformador Generativo Preentrenado (GPT) con las calificaciones asignadas por trabajadores de Amazon Mechanical Turk (MTurk). Las salidas de anotación de GPT-4o reflejan de cerca las calificaciones originales, dada su fuerte correlación positiva (0.703) con estas últimas. GPT-3.5 Turbo y MTurk mostraron correlaciones más débiles (0.663 y 0.15, respectivamente) que GPT-4o. La posible causa de la gran diferencia entre las calificaciones originales y MTurk (impulsada en gran medida por la percepción humana) radica en los desafíos inherentes de la subjetividad, el sesgo cuantitativo y la variabilidad en la comprensión del contexto. Estos hallazgos sugieren que el uso de modelos avanzados como GPT-4o puede reducir significativamente el sesgo y la variabilidad potencial introducidos por los anotadores de Amazon MTurk, mejorando así la precisión de las predicciones de calificaciones con el sentimiento real del usuario expresado en reseñas textuales. Además, con el costo por anotación de un LLM demostrado ser treinta veces más barato que MTurk, nuestro enfoque propuesto de anotación de reseñas textuales basado en LLM será rentable para la industria de la hospitalidad.
Descripción
La proliferación de contenido generado por los usuarios en el paisaje digital actual ha aumentado aún más la dependencia de las reseñas en línea como fuente para la toma de decisiones en la industria de la hospitalidad. Ha habido un interés creciente en automatizar este mecanismo de apoyo a la decisión a través de sistemas de recomendación. Sin embargo, este proceso a menudo requiere una gran cantidad de corpus etiquetado para entrenar un algoritmo efectivo, lo que hace necesario el uso de anotadores humanos para desarrollar datos de entrenamiento, donde esto es escaso. Aunque la anotación manual puede ser útil para enriquecer el corpus de entrenamiento, puede, por un lado, introducir errores y sesgos de los anotadores, incluyendo subjetividad y sesgo cultural, lo que puede afectar la calidad de los datos y la equidad en el modelo. Este artículo examina la alineación de las calificaciones derivadas de diferentes fuentes de anotación y las calificaciones originales proporcionadas por los clientes, que se tratan como la verdad fundamental. El artículo compara las predicciones de los modelos de Transformador Generativo Preentrenado (GPT) con las calificaciones asignadas por trabajadores de Amazon Mechanical Turk (MTurk). Las salidas de anotación de GPT-4o reflejan de cerca las calificaciones originales, dada su fuerte correlación positiva (0.703) con estas últimas. GPT-3.5 Turbo y MTurk mostraron correlaciones más débiles (0.663 y 0.15, respectivamente) que GPT-4o. La posible causa de la gran diferencia entre las calificaciones originales y MTurk (impulsada en gran medida por la percepción humana) radica en los desafíos inherentes de la subjetividad, el sesgo cuantitativo y la variabilidad en la comprensión del contexto. Estos hallazgos sugieren que el uso de modelos avanzados como GPT-4o puede reducir significativamente el sesgo y la variabilidad potencial introducidos por los anotadores de Amazon MTurk, mejorando así la precisión de las predicciones de calificaciones con el sentimiento real del usuario expresado en reseñas textuales. Además, con el costo por anotación de un LLM demostrado ser treinta veces más barato que MTurk, nuestro enfoque propuesto de anotación de reseñas textuales basado en LLM será rentable para la industria de la hospitalidad.