Medalla: un marco de aumento de datos efectivo basado en multimodalidad para la identificación de sitios web ilegales
Autores: Wen, Li; Zhang, Min; Wang, Chenyang; Guo, Bingyang; Ma, Huimin; Xue, Pengfei; Ding, Wanmeng; Zheng, Jinghua
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Medalla: un marco de aumento de datos efectivo basado en multimodalidad para la identificación de sitios web ilegales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Juego de azar
Pornografía
Atracción
Sitios web ilegales
Aumento de datos
Basado en multimodalidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
La emergencia de sitios web ilegales (juegos de azar, pornografía y atracción) amenaza seriamente la seguridad de la sociedad. Debido al ocultamiento de los sitios web ilegales, es difícil obtener datos etiquetados en gran cantidad. Además, la mayoría de los sitios web ilegales suelen disfrazarse para evitar ser detectados; por ejemplo, algunos sitios de juegos de azar pueden parecer visualmente a sitios de videojuegos. Sin embargo, los métodos existentes ignoran los medios de camuflaje en una sola modalidad. Para abordar los problemas mencionados, este documento propone MEDAL, un marco de aumento de datos efectivo basado en multimodalidad para la identificación de sitios web ilegales. Primero, establecimos un marco de identificación de sitios web ilegales basado en el tri-entrenamiento que combina información de diferentes modalidades (incluyendo imagen, texto y HTML) aprovechando al máximo numerosos datos no etiquetados. Luego, diseñamos un módulo de asistencia mutimodal integrado con el marco de tri-entrenamiento para mitigar la introducción de información errónea resultante del desempeño desequilibrado de un clasificador de una sola modalidad en el proceso de tri-entrenamiento. Finalmente, los resultados experimentales en el conjunto de datos desarrollado demuestran la efectividad del marco propuesto, teniendo un buen desempeño en precisión, exactitud, recuperación y métricas F1.
Descripción
La emergencia de sitios web ilegales (juegos de azar, pornografía y atracción) amenaza seriamente la seguridad de la sociedad. Debido al ocultamiento de los sitios web ilegales, es difícil obtener datos etiquetados en gran cantidad. Además, la mayoría de los sitios web ilegales suelen disfrazarse para evitar ser detectados; por ejemplo, algunos sitios de juegos de azar pueden parecer visualmente a sitios de videojuegos. Sin embargo, los métodos existentes ignoran los medios de camuflaje en una sola modalidad. Para abordar los problemas mencionados, este documento propone MEDAL, un marco de aumento de datos efectivo basado en multimodalidad para la identificación de sitios web ilegales. Primero, establecimos un marco de identificación de sitios web ilegales basado en el tri-entrenamiento que combina información de diferentes modalidades (incluyendo imagen, texto y HTML) aprovechando al máximo numerosos datos no etiquetados. Luego, diseñamos un módulo de asistencia mutimodal integrado con el marco de tri-entrenamiento para mitigar la introducción de información errónea resultante del desempeño desequilibrado de un clasificador de una sola modalidad en el proceso de tri-entrenamiento. Finalmente, los resultados experimentales en el conjunto de datos desarrollado demuestran la efectividad del marco propuesto, teniendo un buen desempeño en precisión, exactitud, recuperación y métricas F1.