logo móvil
Contáctanos

Análisis de Sentimiento Multilingüe con Aumento de Datos: Una Evaluación Cruzada en Francés, Alemán y Japonés

Autores: Alkhushayni, Suboh; Lee, Hyesu

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Análisis de Sentimiento Multilingüe con Aumento de Datos: Una Evaluación Cruzada en Francés, Alemán y Japonés


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aprendizaje automático
Procesamiento del lenguaje natural
Aumento de datos
Análisis de sentimientos
Traducción automática neuronal
Adaptación cruzada de lenguas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El aprendizaje automático en el procesamiento del lenguaje natural (NLP) analiza conjuntos de datos para hacer predicciones futuras, pero desarrollar modelos precisos requiere conjuntos de datos grandes, de alta calidad y equilibrados. Sin embargo, recopilar tales conjuntos de datos, especialmente para lenguas de bajos recursos, es un proceso que consume tiempo y es costoso. Como solución, se puede utilizar la augmentación de datos para aumentar el tamaño del conjunto de datos generando muestras sintéticas a partir de datos existentes. Este estudio examina el efecto de la augmentación de datos basada en traducción en el análisis de sentimientos utilizando pequeños conjuntos de datos en tres lenguas diversas: francés, alemán y japonés. Utilizamos dos servicios de traducción automática neuronal (NMT): Google Translate y DeepL, para generar conjuntos de datos aumentados a través de la traducción en un idioma intermedio. Los modelos de análisis de sentimientos basados en máquinas de soporte vectorial (SVM) se entrenan tanto en conjuntos de datos originales como aumentados y se evalúan utilizando precisión, exactitud, recuperación y puntuación F1. Nuestros resultados demuestran que la augmentación por traducción mejora significativamente el rendimiento del modelo tanto en francés como en japonés. Por ejemplo, utilizando Google Translate, la precisión del modelo mejoró del 62.50% al 83.55% en japonés (+21.05%) y del 87.66% al 90.26% en francés (+2.6%). En contraste, el conjunto de datos alemán mostró una mejora menor o un declive, dependiendo del traductor utilizado. La augmentación basada en Google generalmente superó a DeepL, que produjo ganancias más pequeñas o negativas. Para evaluar la generalización entre lenguas, los modelos entrenados en un idioma se probaron en conjuntos de datos en los otros dos. Notablemente, un modelo entrenado con datos alemanes aumentados mejoró su precisión en los datos de prueba en francés del 81.17% al 85.71% y en los datos de prueba en japonés del 71.71% al 79.61%. De manera similar, un modelo entrenado con datos japoneses aumentados mejoró la precisión en los datos de prueba en alemán hasta un 3.4%. Estos hallazgos destacan que la augmentación basada en traducción puede mejorar la clasificación de sentimientos y la adaptabilidad entre lenguas, particularmente en entornos de NLP de bajos recursos y multilingües.

Otros recursos que podrían interesarte

Temas Virtualpro