La influencia de la clasificación de datos en la calidad de etiquetado manual de texto corto para la clasificación jerárquica
Autores: Narushynska, Olga; Teslyuk, Vasyl; Doroshenko, Anastasiya; Arzubov, Maksym
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
La influencia de la clasificación de datos en la calidad de etiquetado manual de texto corto para la clasificación jerárquica
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Aplicaciones
Textos cortos
Etiquetado manual
Clasificación jerárquica
Estrategias de ordenación de datos
Investigación impulsada por inteligencia artificial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
La precisa categorización de textos breves tiene una importancia significativa en varias aplicaciones dentro del siempre cambiante ámbito de la inteligencia artificial (IA) y el procesamiento del lenguaje natural (PLN). Los textos cortos están en todas partes en el mundo digital, desde actualizaciones en redes sociales hasta reseñas y retroalimentación de clientes. Sin embargo, la longitud limitada y el contexto de los textos cortos plantean desafíos únicos para una clasificación precisa. Este artículo de investigación profundiza en la influencia de los métodos de clasificación de datos en la calidad del etiquetado manual en la clasificación jerárquica, con un enfoque particular en textos cortos. El estudio se sitúa en el contexto de la creciente dependencia del etiquetado manual en IA y PLN, resaltando su importancia en la precisión de la clasificación jerárquica de textos. Metodológicamente, el estudio integra la IA, en particular el aprendizaje de cero disparo, con procesos de anotación humana para examinar la eficacia de varias estrategias de clasificación de datos. Los resultados demuestran cómo diferentes enfoques de clasificación impactan en la precisión y consistencia del etiquetado manual, un aspecto crítico en la creación de conjuntos de datos de alta calidad para aplicaciones de PLN. Los hallazgos del estudio revelan una mejora significativa en la eficiencia temporal en términos de etiquetado, donde el etiquetado manual ordenado requería 760 minutos por cada 1000 muestras, en comparación con 800 minutos para el etiquetado manual tradicional, ilustrando los beneficios prácticos de las estrategias optimizadas de clasificación de datos. En comparación, el etiquetado manual ordenado logró las tasas de precisión promedio más altas en todos los niveles jerárquicos, con cifras que alcanzaron hasta un 99% para segmentos, 95% para familias, 92% para clases y 90% para bloques, subrayando la eficiencia de la clasificación estructurada de datos. Ofrece ideas valiosas y pautas prácticas para mejorar la calidad del etiquetado en tareas de clasificación jerárquica, avanzando así en la precisión del análisis de texto en la investigación impulsada por IA. Este resumen encapsula el trasfondo, los métodos, los resultados y las conclusiones del artículo, proporcionando una visión general de estudio completa pero sucinta.
Descripción
La precisa categorización de textos breves tiene una importancia significativa en varias aplicaciones dentro del siempre cambiante ámbito de la inteligencia artificial (IA) y el procesamiento del lenguaje natural (PLN). Los textos cortos están en todas partes en el mundo digital, desde actualizaciones en redes sociales hasta reseñas y retroalimentación de clientes. Sin embargo, la longitud limitada y el contexto de los textos cortos plantean desafíos únicos para una clasificación precisa. Este artículo de investigación profundiza en la influencia de los métodos de clasificación de datos en la calidad del etiquetado manual en la clasificación jerárquica, con un enfoque particular en textos cortos. El estudio se sitúa en el contexto de la creciente dependencia del etiquetado manual en IA y PLN, resaltando su importancia en la precisión de la clasificación jerárquica de textos. Metodológicamente, el estudio integra la IA, en particular el aprendizaje de cero disparo, con procesos de anotación humana para examinar la eficacia de varias estrategias de clasificación de datos. Los resultados demuestran cómo diferentes enfoques de clasificación impactan en la precisión y consistencia del etiquetado manual, un aspecto crítico en la creación de conjuntos de datos de alta calidad para aplicaciones de PLN. Los hallazgos del estudio revelan una mejora significativa en la eficiencia temporal en términos de etiquetado, donde el etiquetado manual ordenado requería 760 minutos por cada 1000 muestras, en comparación con 800 minutos para el etiquetado manual tradicional, ilustrando los beneficios prácticos de las estrategias optimizadas de clasificación de datos. En comparación, el etiquetado manual ordenado logró las tasas de precisión promedio más altas en todos los niveles jerárquicos, con cifras que alcanzaron hasta un 99% para segmentos, 95% para familias, 92% para clases y 90% para bloques, subrayando la eficiencia de la clasificación estructurada de datos. Ofrece ideas valiosas y pautas prácticas para mejorar la calidad del etiquetado en tareas de clasificación jerárquica, avanzando así en la precisión del análisis de texto en la investigación impulsada por IA. Este resumen encapsula el trasfondo, los métodos, los resultados y las conclusiones del artículo, proporcionando una visión general de estudio completa pero sucinta.