Avanzando en el análisis lingüístico impulsado por la IA: desarrollando y anotando corpus de dialectos árabes exhaustivos para países del Golfo y Arabia Saudita
Autores: Al-Shenaifi, Nouf; Azmi, Aqil M.; Hosny, Manar
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Avanzando en el análisis lingüístico impulsado por la IA: desarrollando y anotando corpus de dialectos árabes exhaustivos para países del Golfo y Arabia Saudita
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Dialectos árabes
Corpora
Países del golfo
Arabia Saudita
Variaciones lingüísticas
Algoritmos de inteligencia artificial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Este estudio aprovecha la diversidad lingüística de los dialectos árabes para crear dos corpus extensos de X (anteriormente Twitter). El Corpus Árabe del Golfo (GAC-6) incluye alrededor de 1.7 millones de tweets de seis países del Golfo: Arabia Saudita, Emiratos Árabes Unidos, Qatar, Omán, Kuwait y Bahréin, capturando una amplia gama de variaciones lingüísticas. El Corpus del Dialecto Saudí (SDC-5) comprende 790,000 tweets, ofreciendo información detallada sobre cinco dialectos regionales principales de Arabia Saudita: Hiyazi, Najdi, Sureño, Norteño y Oriental, reflejando el complejo panorama lingüístico de la región. Ambos corpus están completamente anotados con palabras clave específicas de cada dialecto y datos de geolocalización, logrando altos niveles de precisión, como lo indican los puntajes de Kappa de Cohen de 0.78 para GAC-6 y 0.90 para SDC-5. El proceso de anotación aprovecha técnicas impulsadas por inteligencia artificial, incluyendo algoritmos de aprendizaje automático para el reconocimiento automatizado de dialectos y la extracción de características, para mejorar la granularidad y precisión de los datos. Estos recursos contribuyen significativamente al campo de la dialectología árabe y facilitan el desarrollo de algoritmos de inteligencia artificial para el análisis de datos lingüísticos, mejorando el diseño y la eficiencia de los sistemas de inteligencia artificial. Los datos proporcionados por esta investigación son cruciales para avanzar en metodologías de inteligencia artificial, apoyando diversas aplicaciones en el ámbito de las tecnologías de inteligencia artificial de próxima generación.
Descripción
Este estudio aprovecha la diversidad lingüística de los dialectos árabes para crear dos corpus extensos de X (anteriormente Twitter). El Corpus Árabe del Golfo (GAC-6) incluye alrededor de 1.7 millones de tweets de seis países del Golfo: Arabia Saudita, Emiratos Árabes Unidos, Qatar, Omán, Kuwait y Bahréin, capturando una amplia gama de variaciones lingüísticas. El Corpus del Dialecto Saudí (SDC-5) comprende 790,000 tweets, ofreciendo información detallada sobre cinco dialectos regionales principales de Arabia Saudita: Hiyazi, Najdi, Sureño, Norteño y Oriental, reflejando el complejo panorama lingüístico de la región. Ambos corpus están completamente anotados con palabras clave específicas de cada dialecto y datos de geolocalización, logrando altos niveles de precisión, como lo indican los puntajes de Kappa de Cohen de 0.78 para GAC-6 y 0.90 para SDC-5. El proceso de anotación aprovecha técnicas impulsadas por inteligencia artificial, incluyendo algoritmos de aprendizaje automático para el reconocimiento automatizado de dialectos y la extracción de características, para mejorar la granularidad y precisión de los datos. Estos recursos contribuyen significativamente al campo de la dialectología árabe y facilitan el desarrollo de algoritmos de inteligencia artificial para el análisis de datos lingüísticos, mejorando el diseño y la eficiencia de los sistemas de inteligencia artificial. Los datos proporcionados por esta investigación son cruciales para avanzar en metodologías de inteligencia artificial, apoyando diversas aplicaciones en el ámbito de las tecnologías de inteligencia artificial de próxima generación.