Evaluando el impacto de los datos sintéticos en la clasificación de emociones: un análisis lingüístico y estructural

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evaluando el impacto de los datos sintéticos en la clasificación de emociones: un análisis lingüístico y estructural

Autores: Üveges, István; Ring, Orsolya

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Evaluando el impacto de los datos sintéticos en la clasificación de emociones: un análisis lingüístico y estructural

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Clasificación de emociones

Aumento de datos sintéticos

Conjunto de datos desbalanceado

Modelos de lenguaje grandes

Categorías de emociones minoritarias

Análisis lingüístico

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La clasificación de emociones en el procesamiento del lenguaje natural (NLP) ha experimentado recientemente avances significativos. Sin embargo, el desequilibrio de clases en los conjuntos de datos de emociones sigue siendo un desafío crítico, ya que las categorías de emociones dominantes tienden a eclipsar a las menos frecuentes, lo que lleva a predicciones sesgadas del modelo. Las técnicas tradicionales, como el submuestreo y el sobremuestreo, ofrecen soluciones parciales. Más recientemente, la generación de datos sintéticos utilizando modelos de lenguaje grandes (LLMs) ha surgido como una estrategia prometedora para aumentar las clases minoritarias y mejorar la robustez del modelo. En este estudio, investigamos el impacto de la augmentación de datos sintéticos en la clasificación de emociones en alemán. Utilizando un conjunto de datos desequilibrado, evaluamos sistemáticamente múltiples estrategias de balanceo, incluyendo el submuestreo de clases sobrerrepresentadas y la generación de datos sintéticos para emociones subrepresentadas utilizando un modelo basado en GPT-4 en un entorno de indicaciones de pocos disparos. Más allá de mejorar el rendimiento del modelo, realizamos un análisis lingüístico detallado de las muestras sintéticas, examinando su diversidad léxica, estructuras sintácticas y coherencia semántica para determinar su contribución a la generalización general del modelo. Nuestros resultados demuestran que la integración de datos sintéticos mejora significativamente el rendimiento de la clasificación, particularmente para las categorías de emociones minoritarias, mientras se mantiene la estabilidad general del modelo. Sin embargo, nuestra evaluación lingüística revela que los ejemplos sintéticos exhiben una diversidad léxica reducida y estructuras sintácticas simplificadas, lo que puede introducir limitaciones en ciertas aplicaciones del mundo real. Estos hallazgos destacan tanto el potencial como los desafíos de la augmentación de datos sintéticos en la clasificación de emociones. Al proporcionar una evaluación integral de las técnicas de balanceo y las propiedades lingüísticas del texto generado, este estudio contribuye al discurso en curso sobre la mejora de los modelos de NLP para fenómenos lingüísticos subrepresentados.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro