Hacia una detección robusta de texto generado por IA en árabe: abordando los desafíos de los diacríticos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Hacia una detección robusta de texto generado por IA en árabe: abordando los desafíos de los diacríticos

Autores: Alshammari, Hamed; Elleithy, Khaled

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Hacia una detección robusta de texto generado por IA en árabe: abordando los desafíos de los diacríticos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Detección de texto árabe

Diacríticos

Modelos basados en transformadores

Aigts

Conjuntos de datos

Precisión de detección

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los sistemas actuales de detección de IA a menudo tienen dificultades para distinguir entre el texto escrito por humanos en árabe (HWT) y el texto generado por IA (AIGT) debido a las pequeñas marcas presentes por encima y por debajo del texto árabe, llamadas diacríticos. Este estudio presenta modelos robustos de detección de texto árabe utilizando modelos preentrenados basados en Transformer, específicamente AraELECTRA, AraBERT, XLM-R y mBERT. Nuestro objetivo principal es detectar AIGTs en ensayos y superar los desafíos que plantean los diacríticos que suelen aparecer en textos religiosos árabes. Creamos varios conjuntos de datos novedosos con textos diacríticos y no diacríticos que comprenden hasta 9666 ejemplos de entrenamiento de HWT y AIGT. Nuestro objetivo era evaluar la robustez y efectividad de los modelos de detección en conjuntos de datos fuera de dominio (OOD) para evaluar su capacidad de generalización. Nuestros modelos de detección entrenados en ejemplos diacríticos lograron hasta un 98.4% de precisión en comparación con el 62.7% de GPTZero en el conjunto de datos de referencia AIRABIC. Nuestros experimentos revelan que, si bien incluir diacríticos en el entrenamiento mejora el reconocimiento de los HWT diacríticos, duplicar ejemplos con y sin diacríticos es ineficiente a pesar de la alta precisión lograda. Aplicar un filtro de desdiacritización durante la evaluación mejoró significativamente el rendimiento del modelo, logrando un rendimiento óptimo en comparación con GPTZero y los modelos de detección entrenados en ejemplos diacríticos pero evaluados sin desdiacritización. Aunque nuestro enfoque se centró en el árabe debido a sus desafíos de escritura, nuestra arquitectura de detector es adaptable a cualquier idioma.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro