logo móvil
Contáctanos

SYNCode: Colaboración Sinérgica entre Humanos y LLM para una Mejora en la Anotación de Datos en Stack Overflow

Autores: Xia, Meng; Maharjan, Shradha; Le, Tammy; Taylor, Will; Song, Myoungkyu

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

SYNCode: Colaboración Sinérgica entre Humanos y LLM para una Mejora en la Anotación de Datos en Stack Overflow


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje
Anotaciones
Colaboración
LLMs
Anotación de datos
Supervisión humana

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los modelos de lenguaje grandes (LLMs) han avanzado rápidamente en el procesamiento del lenguaje natural, mostrando una efectividad notable como anotadores automáticos en diversas aplicaciones. A pesar de su potencial para reducir significativamente los costos de anotación y acelerar los flujos de trabajo, las anotaciones producidas únicamente por LLMs pueden sufrir de inexactitudes y sesgos inherentes, lo que resalta la necesidad de mantener la supervisión humana. En este artículo, presentamos un enfoque de colaboración sinérgica entre humanos y LLMs para la mejora de la anotación de datos (SYNCode). Este marco está diseñado explícitamente para facilitar la colaboración entre humanos y LLMs para anotar conjuntos de datos complejos centrados en el código, como Stack Overflow. El enfoque propuesto implica un pipeline integrado que inicialmente emplea análisis TF-IDF para la identificación rápida de elementos textuales relevantes. Posteriormente, aprovechamos modelos avanzados basados en transformadores, específicamente NLP Transformer y UniXcoder, para capturar contextos semánticos matizados y estructuras de código, generando anotaciones preliminares más precisas. Los anotadores humanos luego participan en un refinamiento iterativo, validando y ajustando las anotaciones para mejorar la precisión y mitigar los sesgos introducidos durante el etiquetado automatizado. Para operacionalizar este flujo de trabajo sinérgico, desarrollamos el prototipo SYNCode, que cuenta con una interfaz gráfica interactiva que apoya la anotación colaborativa en tiempo real entre humanos y LLMs. Esto permite a los anotadores refinar y validar efectivamente las sugerencias automatizadas de manera iterativa. Nuestra metodología colaborativa integrada entre humanos y LLMs demuestra un considerable potencial para lograr anotaciones de alta calidad y confiables, particularmente para conjuntos de datos específicos de dominio y técnicamente exigentes, mejorando así las tareas posteriores en ingeniería de software y procesamiento del lenguaje natural.

Otros recursos que podrían interesarte

Temas Virtualpro