logo móvil
Contáctanos

Detector de texto generado por IA para el idioma árabe utilizando la arquitectura transformadora basada en codificadores

Autores: Alshammari, Hamed; El-Sayed, Ahmed; Elleithy, Khaled

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Detector de texto generado por IA para el idioma árabe utilizando la arquitectura transformadora basada en codificadores


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Detectores de IA existentes
Textos en árabe
Clasificador de texto
HWTs
Modelos basados en Transformer

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 50

Citaciones: Sin citaciones


Descripción
La efectividad de los detectores de IA existentes se ve notablemente obstaculizada al procesar textos en árabe. Este estudio presenta un nuevo clasificador de texto de IA diseñado específicamente para el árabe, abordando los desafíos distintivos inherentes al procesamiento de este idioma. Un enfoque particular se centra en reconocer con precisión textos escritos por humanos (HWTs), un área donde los detectores de IA existentes han demostrado limitaciones significativas. Para lograr este objetivo, este documento utilizó y ajustó dos modelos basados en Transformer, AraELECTRA y XLM-R, entrenándolos en dos conjuntos de datos distintos: un conjunto de datos grande que comprende 43,958 ejemplos y un conjunto de datos personalizado con 3078 ejemplos que contienen textos HWT y textos generados por IA (AIGTs) de diversas fuentes, incluidos ChatGPT 3.5, ChatGPT-4 y BARD. La arquitectura propuesta es adaptable a cualquier idioma, pero este trabajo evalúa la eficiencia de estos modelos en reconocer HWTs frente a AIGTs en árabe como ejemplo de idiomas semíticos. El rendimiento de los modelos propuestos se ha comparado con los dos prominentes detectores de IA existentes, GPTZero y OpenAI Text Classifier, particularmente en el conjunto de datos de referencia AIRABIC. Los resultados revelan que los clasificadores propuestos superan tanto a GPTZero como a OpenAI Text Classifier con un 81% de precisión en comparación con el 63% y el 50% para GPTZero y OpenAI Text Classifier, respectivamente. Además, la integración de una Capa de Dediacritización antes del modelo de clasificación demostró una mejora significativa en la precisión de detección tanto de HWTs como de AIGTs. Este paso de Dediacritización mejoró notablemente la precisión de clasificación, elevándola del 81% hasta un 99% e incluso, en algunos casos, alcanzando el 100%.

Otros recursos que podrían interesarte

Temas Virtualpro