logo móvil
Contáctanos

AR-Sanad 280K: Un nuevo conjunto de datos de 280K sanads artificiales para la desambiguación de narradores de hadices

Autores: Mahmoud, Somaia; Saif, Omar; Nabil, Emad; Abdeen, Mohammad; ElNainay, Mustafa; Torki, Marwan

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

AR-Sanad 280K: Un nuevo conjunto de datos de 280K sanads artificiales para la desambiguación de narradores de hadices


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Determinación
Autenticidad de hadices
Narradores
Conjunto de datos
Fiabilidad
Basado en BERT.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Determinar la autenticidad de los hadices es de vital importancia en la religión islámica porque los hadices registran las palabras y acciones del Profeta Muhammad (PBUH), y son la segunda fuente de enseñanzas islámicas después del Corán. Al autenticar un hadiz, la fiabilidad de los narradores de hadices es un gran factor que los eruditos de hadices consideran. Sin embargo, muchos narradores comparten nombres similares, y los nombres completos de los narradores no suelen incluirse en las cadenas de narración de los hadices. Por lo tanto, primero es necesario identificar a los narradores ambiguos. Luego, se puede determinar su nivel de fiabilidad. No hay conjuntos de datos disponibles que puedan ayudar a abordar este problema de identificación de narradores. Aquí, presentamos un nuevo conjunto de datos que contiene cadenas de narración (sanads) con narradores identificados. El conjunto de datos AR-Sanad 280K tiene alrededor de 280K sanads artificiales y podría usarse para identificar 18,298 narradores. Después de crear el conjunto de datos AR-Sanad 280K, abordamos la desambiguación de narradores en varios escenarios experimentales. La desambiguación de narradores de hadices se modela como un problema de clasificación multicategoría con 18,298 etiquetas de clase. Probamos diferentes representaciones y modelos en nuestros experimentos. Los mejores resultados se lograron ajustando finamente el modelo de aprendizaje profundo basado en BERT (AraBERT). Obtuvimos un puntaje Micro F1 de 92.9 y una tasa de error de sanad (SER) de 30.2 en el conjunto de validación de nuestros sanads artificiales del conjunto de datos AR-Sanad 280K. Además, extraímos un conjunto de prueba real de los sanads de los seis libros famosos en hadiz islámico. Evaluamos el mejor modelo en los datos de prueba reales y logramos un puntaje Micro F1 de 83.5 y una tasa de error de sanad de 60.6.

Otros recursos que podrían interesarte

Temas Virtualpro