AR-Sanad 280K: Un nuevo conjunto de datos de 280K sanads artificiales para la desambiguación de narradores de hadices

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

AR-Sanad 280K: Un nuevo conjunto de datos de 280K sanads artificiales para la desambiguación de narradores de hadices

Autores: Mahmoud, Somaia; Saif, Omar; Nabil, Emad; Abdeen, Mohammad; ElNainay, Mustafa; Torki, Marwan

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

AR-Sanad 280K: Un nuevo conjunto de datos de 280K sanads artificiales para la desambiguación de narradores de hadices

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Determinación

Autenticidad de hadices

Narradores

Conjunto de datos

Fiabilidad

Basado en BERT.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Determinar la autenticidad de los hadices es de vital importancia en la religión islámica porque los hadices registran las palabras y acciones del Profeta Muhammad (PBUH), y son la segunda fuente de enseñanzas islámicas después del Corán. Al autenticar un hadiz, la fiabilidad de los narradores de hadices es un gran factor que los eruditos de hadices consideran. Sin embargo, muchos narradores comparten nombres similares, y los nombres completos de los narradores no suelen incluirse en las cadenas de narración de los hadices. Por lo tanto, primero es necesario identificar a los narradores ambiguos. Luego, se puede determinar su nivel de fiabilidad. No hay conjuntos de datos disponibles que puedan ayudar a abordar este problema de identificación de narradores. Aquí, presentamos un nuevo conjunto de datos que contiene cadenas de narración (sanads) con narradores identificados. El conjunto de datos AR-Sanad 280K tiene alrededor de 280K sanads artificiales y podría usarse para identificar 18,298 narradores. Después de crear el conjunto de datos AR-Sanad 280K, abordamos la desambiguación de narradores en varios escenarios experimentales. La desambiguación de narradores de hadices se modela como un problema de clasificación multicategoría con 18,298 etiquetas de clase. Probamos diferentes representaciones y modelos en nuestros experimentos. Los mejores resultados se lograron ajustando finamente el modelo de aprendizaje profundo basado en BERT (AraBERT). Obtuvimos un puntaje Micro F1 de 92.9 y una tasa de error de sanad (SER) de 30.2 en el conjunto de validación de nuestros sanads artificiales del conjunto de datos AR-Sanad 280K. Además, extraímos un conjunto de prueba real de los sanads de los seis libros famosos en hadiz islámico. Evaluamos el mejor modelo en los datos de prueba reales y logramos un puntaje Micro F1 de 83.5 y una tasa de error de sanad de 60.6.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro