Evaluando el impacto de los datos sintéticos en la clasificación de emociones: un análisis lingüístico y estructural
Autores: Üveges, István; Ring, Orsolya
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Evaluando el impacto de los datos sintéticos en la clasificación de emociones: un análisis lingüístico y estructural
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Clasificación de emociones
Aumento de datos sintéticos
Conjunto de datos desbalanceado
Modelos de lenguaje grandes
Categorías de emociones minoritarias
Análisis lingüístico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La clasificación de emociones en el procesamiento del lenguaje natural (NLP) ha experimentado recientemente avances significativos. Sin embargo, el desequilibrio de clases en los conjuntos de datos de emociones sigue siendo un desafío crítico, ya que las categorías de emociones dominantes tienden a eclipsar a las menos frecuentes, lo que lleva a predicciones sesgadas del modelo. Las técnicas tradicionales, como el submuestreo y el sobremuestreo, ofrecen soluciones parciales. Más recientemente, la generación de datos sintéticos utilizando modelos de lenguaje grandes (LLMs) ha surgido como una estrategia prometedora para aumentar las clases minoritarias y mejorar la robustez del modelo. En este estudio, investigamos el impacto de la augmentación de datos sintéticos en la clasificación de emociones en alemán. Utilizando un conjunto de datos desequilibrado, evaluamos sistemáticamente múltiples estrategias de balanceo, incluyendo el submuestreo de clases sobrerrepresentadas y la generación de datos sintéticos para emociones subrepresentadas utilizando un modelo basado en GPT-4 en un entorno de indicaciones de pocos disparos. Más allá de mejorar el rendimiento del modelo, realizamos un análisis lingüístico detallado de las muestras sintéticas, examinando su diversidad léxica, estructuras sintácticas y coherencia semántica para determinar su contribución a la generalización general del modelo. Nuestros resultados demuestran que la integración de datos sintéticos mejora significativamente el rendimiento de la clasificación, particularmente para las categorías de emociones minoritarias, mientras se mantiene la estabilidad general del modelo. Sin embargo, nuestra evaluación lingüística revela que los ejemplos sintéticos exhiben una diversidad léxica reducida y estructuras sintácticas simplificadas, lo que puede introducir limitaciones en ciertas aplicaciones del mundo real. Estos hallazgos destacan tanto el potencial como los desafíos de la augmentación de datos sintéticos en la clasificación de emociones. Al proporcionar una evaluación integral de las técnicas de balanceo y las propiedades lingüísticas del texto generado, este estudio contribuye al discurso en curso sobre la mejora de los modelos de NLP para fenómenos lingüísticos subrepresentados.
Descripción
La clasificación de emociones en el procesamiento del lenguaje natural (NLP) ha experimentado recientemente avances significativos. Sin embargo, el desequilibrio de clases en los conjuntos de datos de emociones sigue siendo un desafío crítico, ya que las categorías de emociones dominantes tienden a eclipsar a las menos frecuentes, lo que lleva a predicciones sesgadas del modelo. Las técnicas tradicionales, como el submuestreo y el sobremuestreo, ofrecen soluciones parciales. Más recientemente, la generación de datos sintéticos utilizando modelos de lenguaje grandes (LLMs) ha surgido como una estrategia prometedora para aumentar las clases minoritarias y mejorar la robustez del modelo. En este estudio, investigamos el impacto de la augmentación de datos sintéticos en la clasificación de emociones en alemán. Utilizando un conjunto de datos desequilibrado, evaluamos sistemáticamente múltiples estrategias de balanceo, incluyendo el submuestreo de clases sobrerrepresentadas y la generación de datos sintéticos para emociones subrepresentadas utilizando un modelo basado en GPT-4 en un entorno de indicaciones de pocos disparos. Más allá de mejorar el rendimiento del modelo, realizamos un análisis lingüístico detallado de las muestras sintéticas, examinando su diversidad léxica, estructuras sintácticas y coherencia semántica para determinar su contribución a la generalización general del modelo. Nuestros resultados demuestran que la integración de datos sintéticos mejora significativamente el rendimiento de la clasificación, particularmente para las categorías de emociones minoritarias, mientras se mantiene la estabilidad general del modelo. Sin embargo, nuestra evaluación lingüística revela que los ejemplos sintéticos exhiben una diversidad léxica reducida y estructuras sintácticas simplificadas, lo que puede introducir limitaciones en ciertas aplicaciones del mundo real. Estos hallazgos destacan tanto el potencial como los desafíos de la augmentación de datos sintéticos en la clasificación de emociones. Al proporcionar una evaluación integral de las técnicas de balanceo y las propiedades lingüísticas del texto generado, este estudio contribuye al discurso en curso sobre la mejora de los modelos de NLP para fenómenos lingüísticos subrepresentados.