logo móvil
Contáctanos

ORUD-Detect: Un enfoque integral para la detección de lenguaje ofensivo en urdu romano utilizando modelos híbridos de aprendizaje automático y aprendizaje profundo con técnicas de incrustación

Autores: Hussain, Nisar; Qasim, Amna; Mehak, Gull; Kolesnikova, Olga; Gelbukh, Alexander; Sidorov, Grigori

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

ORUD-Detect: Un enfoque integral para la detección de lenguaje ofensivo en urdu romano utilizando modelos híbridos de aprendizaje automático y aprendizaje profundo con técnicas de incrustación


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Detección de lenguaje ofensivo en redes sociales
Urdu romano
Aprendizaje automático
Aprendizaje profundo
Facebook

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Con la rápida expansión de las redes sociales, detectar lenguaje ofensivo se ha vuelto críticamente importante para interacciones saludables en línea. Esto representa un desafío considerable para lenguas de bajos recursos como el urdu romano, que se habla ampliamente en plataformas como Facebook. En este documento, realizamos un estudio exhaustivo de modelos de detección de lenguaje ofensivo en conjuntos de datos de urdu romano utilizando enfoques tanto de Aprendizaje Automático (ML) como de Aprendizaje Profundo (DL). Presentamos un conjunto de datos de 89,968 comentarios de Facebook y técnicas de preprocesamiento extensas como características TF-IDF, Word2Vec y embeddings de fastText para abordar las idiosincrasias lingüísticas y los aspectos de mezcla de códigos del urdu romano. Entre los modelos de ML, un modelo de Máquina de Vectores de Soporte (SVM) con núcleo lineal obtuvo el mejor rendimiento, con una puntuación F1 de 94.76, seguido por modelos SVM con núcleos radial y polinómico. Incluso el uso de características BoW uni-gram con Bayes ingenuo produjo resultados competitivos, con una puntuación F1 de 94.26. Los modelos de DL también tuvieron un buen desempeño, con Bi-LSTM regresando una puntuación F1 de 98.00 con embeddings de Word2Vec y Bi-RNN basado en fastText funcionando a 97.00, mostrando la inferencia de embeddings contextuales y similitud suave. El modelo CNN también dio un buen resultado, con una puntuación F1 de 96.00. Este estudio presenta enfoques híbridos de ML y DL para mejorar los enfoques de detección de lenguaje ofensivo para lenguas de bajos recursos. Esta investigación abre nuevas puertas para proporcionar entornos en línea más seguros para los usuarios de urdu romano.

Otros recursos que podrían interesarte

Temas Virtualpro