ORUD-Detect: Un enfoque integral para la detección de lenguaje ofensivo en urdu romano utilizando modelos híbridos de aprendizaje automático y aprendizaje profundo con técnicas de incrustación

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

ORUD-Detect: Un enfoque integral para la detección de lenguaje ofensivo en urdu romano utilizando modelos híbridos de aprendizaje automático y aprendizaje profundo con técnicas de incrustación

Autores: Hussain, Nisar; Qasim, Amna; Mehak, Gull; Kolesnikova, Olga; Gelbukh, Alexander; Sidorov, Grigori

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

ORUD-Detect: Un enfoque integral para la detección de lenguaje ofensivo en urdu romano utilizando modelos híbridos de aprendizaje automático y aprendizaje profundo con técnicas de incrustación

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Detección de lenguaje ofensivo en redes sociales

Urdu romano

Aprendizaje automático

Aprendizaje profundo

Facebook

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Con la rápida expansión de las redes sociales, detectar lenguaje ofensivo se ha vuelto críticamente importante para interacciones saludables en línea. Esto representa un desafío considerable para lenguas de bajos recursos como el urdu romano, que se habla ampliamente en plataformas como Facebook. En este documento, realizamos un estudio exhaustivo de modelos de detección de lenguaje ofensivo en conjuntos de datos de urdu romano utilizando enfoques tanto de Aprendizaje Automático (ML) como de Aprendizaje Profundo (DL). Presentamos un conjunto de datos de 89,968 comentarios de Facebook y técnicas de preprocesamiento extensas como características TF-IDF, Word2Vec y embeddings de fastText para abordar las idiosincrasias lingüísticas y los aspectos de mezcla de códigos del urdu romano. Entre los modelos de ML, un modelo de Máquina de Vectores de Soporte (SVM) con núcleo lineal obtuvo el mejor rendimiento, con una puntuación F1 de 94.76, seguido por modelos SVM con núcleos radial y polinómico. Incluso el uso de características BoW uni-gram con Bayes ingenuo produjo resultados competitivos, con una puntuación F1 de 94.26. Los modelos de DL también tuvieron un buen desempeño, con Bi-LSTM regresando una puntuación F1 de 98.00 con embeddings de Word2Vec y Bi-RNN basado en fastText funcionando a 97.00, mostrando la inferencia de embeddings contextuales y similitud suave. El modelo CNN también dio un buen resultado, con una puntuación F1 de 96.00. Este estudio presenta enfoques híbridos de ML y DL para mejorar los enfoques de detección de lenguaje ofensivo para lenguas de bajos recursos. Esta investigación abre nuevas puertas para proporcionar entornos en línea más seguros para los usuarios de urdu romano.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro