Detector de texto generado por IA para el idioma árabe utilizando la arquitectura transformadora basada en codificadores
Autores: Alshammari, Hamed; El-Sayed, Ahmed; Elleithy, Khaled
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Detector de texto generado por IA para el idioma árabe utilizando la arquitectura transformadora basada en codificadores
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Detectores de IA existentes
Textos en árabe
Clasificador de texto
HWTs
Modelos basados en Transformer
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 50
Citaciones: Sin citaciones
La efectividad de los detectores de IA existentes se ve notablemente obstaculizada al procesar textos en árabe. Este estudio presenta un nuevo clasificador de texto de IA diseñado específicamente para el árabe, abordando los desafíos distintivos inherentes al procesamiento de este idioma. Un enfoque particular se centra en reconocer con precisión textos escritos por humanos (HWTs), un área donde los detectores de IA existentes han demostrado limitaciones significativas. Para lograr este objetivo, este documento utilizó y ajustó dos modelos basados en Transformer, AraELECTRA y XLM-R, entrenándolos en dos conjuntos de datos distintos: un conjunto de datos grande que comprende 43,958 ejemplos y un conjunto de datos personalizado con 3078 ejemplos que contienen textos HWT y textos generados por IA (AIGTs) de diversas fuentes, incluidos ChatGPT 3.5, ChatGPT-4 y BARD. La arquitectura propuesta es adaptable a cualquier idioma, pero este trabajo evalúa la eficiencia de estos modelos en reconocer HWTs frente a AIGTs en árabe como ejemplo de idiomas semíticos. El rendimiento de los modelos propuestos se ha comparado con los dos prominentes detectores de IA existentes, GPTZero y OpenAI Text Classifier, particularmente en el conjunto de datos de referencia AIRABIC. Los resultados revelan que los clasificadores propuestos superan tanto a GPTZero como a OpenAI Text Classifier con un 81% de precisión en comparación con el 63% y el 50% para GPTZero y OpenAI Text Classifier, respectivamente. Además, la integración de una Capa de Dediacritización antes del modelo de clasificación demostró una mejora significativa en la precisión de detección tanto de HWTs como de AIGTs. Este paso de Dediacritización mejoró notablemente la precisión de clasificación, elevándola del 81% hasta un 99% e incluso, en algunos casos, alcanzando el 100%.
Descripción
La efectividad de los detectores de IA existentes se ve notablemente obstaculizada al procesar textos en árabe. Este estudio presenta un nuevo clasificador de texto de IA diseñado específicamente para el árabe, abordando los desafíos distintivos inherentes al procesamiento de este idioma. Un enfoque particular se centra en reconocer con precisión textos escritos por humanos (HWTs), un área donde los detectores de IA existentes han demostrado limitaciones significativas. Para lograr este objetivo, este documento utilizó y ajustó dos modelos basados en Transformer, AraELECTRA y XLM-R, entrenándolos en dos conjuntos de datos distintos: un conjunto de datos grande que comprende 43,958 ejemplos y un conjunto de datos personalizado con 3078 ejemplos que contienen textos HWT y textos generados por IA (AIGTs) de diversas fuentes, incluidos ChatGPT 3.5, ChatGPT-4 y BARD. La arquitectura propuesta es adaptable a cualquier idioma, pero este trabajo evalúa la eficiencia de estos modelos en reconocer HWTs frente a AIGTs en árabe como ejemplo de idiomas semíticos. El rendimiento de los modelos propuestos se ha comparado con los dos prominentes detectores de IA existentes, GPTZero y OpenAI Text Classifier, particularmente en el conjunto de datos de referencia AIRABIC. Los resultados revelan que los clasificadores propuestos superan tanto a GPTZero como a OpenAI Text Classifier con un 81% de precisión en comparación con el 63% y el 50% para GPTZero y OpenAI Text Classifier, respectivamente. Además, la integración de una Capa de Dediacritización antes del modelo de clasificación demostró una mejora significativa en la precisión de detección tanto de HWTs como de AIGTs. Este paso de Dediacritización mejoró notablemente la precisión de clasificación, elevándola del 81% hasta un 99% e incluso, en algunos casos, alcanzando el 100%.