Ajuste fino de QurSim en modelos monolingües y multilingües para búsqueda semántica
Autores: Afzal, Tania; Abdul Rauf, Sadaf; Malik, Muhammad Ghulam Abbas; Imran, Muhammad
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Ajuste fino de QurSim en modelos monolingües y multilingües para búsqueda semántica
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Transformadores
Procesamiento de lenguaje natural
Modelos multilingües
Conjunto de datos QurSim
Modelos monolingües
Precisión de clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los transformadores han logrado un avance significativo en el procesamiento del lenguaje natural. Estos modelos se entrenan con grandes conjuntos de datos y pueden manejar múltiples tareas. Comparamos modelos de transformadores monolingües y multilingües para la relación semántica y la recuperación de versos. Aprovechamos datos del conjunto de datos original de QurSim (árabe) y utilizamos traducciones auténticas de múltiples autores en 22 idiomas para crear un conjunto de datos multilingüe de QurSim, que liberamos para la comunidad de investigación. Evaluamos el rendimiento de los LLM monolingües y multilingües para el árabe y nuestros resultados muestran que los LLM monolingües ofrecen mejores resultados para la clasificación de versos y la recuperación de versos coincidentes. Construimos de manera incremental modelos monolingües con árabe, inglés y urdu, y modelos multilingües con los 22 idiomas soportados por el modelo de paráfrasis multilingüe MiniLM-L12-v2. Nuestros resultados muestran una mejora en la precisión de clasificación con la incorporación de QurSim multilingüe.
Descripción
Los transformadores han logrado un avance significativo en el procesamiento del lenguaje natural. Estos modelos se entrenan con grandes conjuntos de datos y pueden manejar múltiples tareas. Comparamos modelos de transformadores monolingües y multilingües para la relación semántica y la recuperación de versos. Aprovechamos datos del conjunto de datos original de QurSim (árabe) y utilizamos traducciones auténticas de múltiples autores en 22 idiomas para crear un conjunto de datos multilingüe de QurSim, que liberamos para la comunidad de investigación. Evaluamos el rendimiento de los LLM monolingües y multilingües para el árabe y nuestros resultados muestran que los LLM monolingües ofrecen mejores resultados para la clasificación de versos y la recuperación de versos coincidentes. Construimos de manera incremental modelos monolingües con árabe, inglés y urdu, y modelos multilingües con los 22 idiomas soportados por el modelo de paráfrasis multilingüe MiniLM-L12-v2. Nuestros resultados muestran una mejora en la precisión de clasificación con la incorporación de QurSim multilingüe.