logo móvil
Contáctanos

Clasificación Automatizada de Quejas del Transporte Público a través de Minería de Texto Utilizando LLMs y Embeddings

Autores: Rakhimzhanov, Daniyar; Belginova, Saule; Yedilkhan, Didar

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Clasificación Automatizada de Quejas del Transporte Público a través de Minería de Texto Utilizando LLMs y Embeddings


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Proliferación
Plataformas de servicios públicos digitales
Iniciativas de gobierno electrónico
Retroalimentación generada por ciudadanos
Modelos de lenguaje grande
Modelos de incrustación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La proliferación de plataformas de servicios públicos digitales y la expansión de iniciativas de gobierno electrónico han aumentado significativamente el volumen y la diversidad de la retroalimentación generada por los ciudadanos. Esta tendencia enfatiza la necesidad de sistemas de clasificación que no solo estén adaptados a dominios administrativos específicos, sino que también sean robustos ante la variabilidad lingüística, contextual y estructural inherente al contenido enviado por los usuarios. Este estudio investiga la efectividad comparativa de los grandes modelos de lenguaje (LLMs) junto con modelos de incrustación ajustados por instrucciones en la tarea de categorizar quejas sobre el transporte público. Se probaron los LLMs utilizando inferencia de pocos ejemplos, donde la clasificación es guiada por un pequeño conjunto de ejemplos en contexto. Los modelos de incrustación se evaluaron bajo tres paradigmas: clasificación cero-shot solo con etiquetas, clasificación basada en instrucciones y ajuste fino supervisado. Los resultados indican que las incrustaciones ajustadas pueden alcanzar o superar la precisión de los LLMs, llegando hasta el 90 por ciento, mientras ofrecen reducciones significativas en la latencia de inferencia y la sobrecarga computacional. Las incrustaciones E5 mostraron una generalización consistente en categorías no vistas y cambios de entrada, mientras que BGE-M3 demostró ganancias medibles cuando se adaptó a distribuciones específicas de la tarea. La clasificación basada en instrucciones produjo una menor precisión para ambos modelos, destacando las limitaciones de la condicionamiento de indicaciones en aislamiento. Estos hallazgos posicionan a los modelos de incrustación multilingües como una alternativa viable a los LLMs para la clasificación a gran escala en entornos del sector público intensivos en datos.

Otros recursos que podrían interesarte

Temas Virtualpro