Una Revisión Sistemática y Evaluación Experimental de Modelos Clásicos y Basados en Transformadores para la Resumición Abstractive de Texto en Urdu
Autores: Azhar, Muhammad; Amjad, Adeen; Dewi, Deshinta Arrova; Kasim, Shahreen
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Una Revisión Sistemática y Evaluación Experimental de Modelos Clásicos y Basados en Transformadores para la Resumición Abstractive de Texto en Urdu
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Contenido digital
Urdu
Resumen abstracto
Modelos de lenguaje basados en transformadores
MT5
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El rápido crecimiento del contenido digital en urdu ha creado una necesidad urgente de sistemas efectivos de resumen automático de texto (ATS). Aunque los métodos extractivos han sido ampliamente estudiados, el resumen abstractivo para el urdu sigue siendo en gran medida inexplorado debido a la compleja morfología del idioma y su rica tradición literaria. Este artículo evalúa sistemáticamente cuatro modelos de lenguaje basados en transformadores (BERT-Urdu, BART, mT5 y GPT-2) para el resumen abstractivo en urdu, comparando su rendimiento con respecto a enfoques convencionales de aprendizaje automático y aprendizaje profundo. Utilizando múltiples conjuntos de datos en urdu, incluidos el Corpus de Resumen en Urdu, el Conjunto de Datos de Noticias Falsas y Urdu-Instruct-News, mostramos que los Modelos de Lenguaje de Transformador (TLM) ajustados finamente superan consistentemente a los métodos tradicionales, con el modelo multilingüe mT5 logrando una mejora absoluta de 0.42 en la puntuación F1 sobre la mejor línea base. Nuestro análisis revela que la arquitectura de mT5 es particularmente efectiva para manejar desafíos específicos del urdu, como el procesamiento de escritura de derecha a izquierda, la interpretación de diacríticos y la compleja composición de verbos y sustantivos. Además, presentamos configuraciones de hiperparámetros y estrategias de entrenamiento validadas empíricamente para el ATS en urdu, estableciendo enfoques basados en transformadores como el nuevo estado del arte para el resumen en urdu. Notablemente, mT5 supera las líneas base de Seq2Seq en hasta un 20% en ROUGE-L, subrayando la eficacia de los modelos basados en transformadores para idiomas de bajos recursos. Este trabajo contribuye tanto con una revisión sistemática de investigaciones previas como con un nuevo punto de referencia empírico para avanzar en el resumen abstractivo en urdu.
Descripción
El rápido crecimiento del contenido digital en urdu ha creado una necesidad urgente de sistemas efectivos de resumen automático de texto (ATS). Aunque los métodos extractivos han sido ampliamente estudiados, el resumen abstractivo para el urdu sigue siendo en gran medida inexplorado debido a la compleja morfología del idioma y su rica tradición literaria. Este artículo evalúa sistemáticamente cuatro modelos de lenguaje basados en transformadores (BERT-Urdu, BART, mT5 y GPT-2) para el resumen abstractivo en urdu, comparando su rendimiento con respecto a enfoques convencionales de aprendizaje automático y aprendizaje profundo. Utilizando múltiples conjuntos de datos en urdu, incluidos el Corpus de Resumen en Urdu, el Conjunto de Datos de Noticias Falsas y Urdu-Instruct-News, mostramos que los Modelos de Lenguaje de Transformador (TLM) ajustados finamente superan consistentemente a los métodos tradicionales, con el modelo multilingüe mT5 logrando una mejora absoluta de 0.42 en la puntuación F1 sobre la mejor línea base. Nuestro análisis revela que la arquitectura de mT5 es particularmente efectiva para manejar desafíos específicos del urdu, como el procesamiento de escritura de derecha a izquierda, la interpretación de diacríticos y la compleja composición de verbos y sustantivos. Además, presentamos configuraciones de hiperparámetros y estrategias de entrenamiento validadas empíricamente para el ATS en urdu, estableciendo enfoques basados en transformadores como el nuevo estado del arte para el resumen en urdu. Notablemente, mT5 supera las líneas base de Seq2Seq en hasta un 20% en ROUGE-L, subrayando la eficacia de los modelos basados en transformadores para idiomas de bajos recursos. Este trabajo contribuye tanto con una revisión sistemática de investigaciones previas como con un nuevo punto de referencia empírico para avanzar en el resumen abstractivo en urdu.