SYNCode: Colaboración Sinérgica entre Humanos y LLM para una Mejora en la Anotación de Datos en Stack Overflow
Autores: Xia, Meng; Maharjan, Shradha; Le, Tammy; Taylor, Will; Song, Myoungkyu
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
SYNCode: Colaboración Sinérgica entre Humanos y LLM para una Mejora en la Anotación de Datos en Stack Overflow
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje
Anotaciones
Colaboración
LLMs
Anotación de datos
Supervisión humana
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los modelos de lenguaje grandes (LLMs) han avanzado rápidamente en el procesamiento del lenguaje natural, mostrando una efectividad notable como anotadores automáticos en diversas aplicaciones. A pesar de su potencial para reducir significativamente los costos de anotación y acelerar los flujos de trabajo, las anotaciones producidas únicamente por LLMs pueden sufrir de inexactitudes y sesgos inherentes, lo que resalta la necesidad de mantener la supervisión humana. En este artículo, presentamos un enfoque de colaboración sinérgica entre humanos y LLMs para la mejora de la anotación de datos (SYNCode). Este marco está diseñado explícitamente para facilitar la colaboración entre humanos y LLMs para anotar conjuntos de datos complejos centrados en el código, como Stack Overflow. El enfoque propuesto implica un pipeline integrado que inicialmente emplea análisis TF-IDF para la identificación rápida de elementos textuales relevantes. Posteriormente, aprovechamos modelos avanzados basados en transformadores, específicamente NLP Transformer y UniXcoder, para capturar contextos semánticos matizados y estructuras de código, generando anotaciones preliminares más precisas. Los anotadores humanos luego participan en un refinamiento iterativo, validando y ajustando las anotaciones para mejorar la precisión y mitigar los sesgos introducidos durante el etiquetado automatizado. Para operacionalizar este flujo de trabajo sinérgico, desarrollamos el prototipo SYNCode, que cuenta con una interfaz gráfica interactiva que apoya la anotación colaborativa en tiempo real entre humanos y LLMs. Esto permite a los anotadores refinar y validar efectivamente las sugerencias automatizadas de manera iterativa. Nuestra metodología colaborativa integrada entre humanos y LLMs demuestra un considerable potencial para lograr anotaciones de alta calidad y confiables, particularmente para conjuntos de datos específicos de dominio y técnicamente exigentes, mejorando así las tareas posteriores en ingeniería de software y procesamiento del lenguaje natural.
Descripción
Los modelos de lenguaje grandes (LLMs) han avanzado rápidamente en el procesamiento del lenguaje natural, mostrando una efectividad notable como anotadores automáticos en diversas aplicaciones. A pesar de su potencial para reducir significativamente los costos de anotación y acelerar los flujos de trabajo, las anotaciones producidas únicamente por LLMs pueden sufrir de inexactitudes y sesgos inherentes, lo que resalta la necesidad de mantener la supervisión humana. En este artículo, presentamos un enfoque de colaboración sinérgica entre humanos y LLMs para la mejora de la anotación de datos (SYNCode). Este marco está diseñado explícitamente para facilitar la colaboración entre humanos y LLMs para anotar conjuntos de datos complejos centrados en el código, como Stack Overflow. El enfoque propuesto implica un pipeline integrado que inicialmente emplea análisis TF-IDF para la identificación rápida de elementos textuales relevantes. Posteriormente, aprovechamos modelos avanzados basados en transformadores, específicamente NLP Transformer y UniXcoder, para capturar contextos semánticos matizados y estructuras de código, generando anotaciones preliminares más precisas. Los anotadores humanos luego participan en un refinamiento iterativo, validando y ajustando las anotaciones para mejorar la precisión y mitigar los sesgos introducidos durante el etiquetado automatizado. Para operacionalizar este flujo de trabajo sinérgico, desarrollamos el prototipo SYNCode, que cuenta con una interfaz gráfica interactiva que apoya la anotación colaborativa en tiempo real entre humanos y LLMs. Esto permite a los anotadores refinar y validar efectivamente las sugerencias automatizadas de manera iterativa. Nuestra metodología colaborativa integrada entre humanos y LLMs demuestra un considerable potencial para lograr anotaciones de alta calidad y confiables, particularmente para conjuntos de datos específicos de dominio y técnicamente exigentes, mejorando así las tareas posteriores en ingeniería de software y procesamiento del lenguaje natural.