logo móvil
Contáctanos

Identificación de Texto Malicioso: Aprendizaje Profundo a partir de Comentarios Públicos y Correos Electrónicos

Autores: Baccouche, Asma; Ahmed, Sadaf; Sierra-Sosa, Daniel; Elmaghraby, Adel

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Identificación de Texto Malicioso: Aprendizaje Profundo a partir de Comentarios Públicos y Correos Electrónicos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Spam
Mensajes
Aprendizaje profundo
Redes LSTM
Clasificación multi-etiqueta
Procesamiento de lenguaje natural

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Identificar el spam en internet ha sido un problema desafiante durante décadas. Varias soluciones han logrado detectar comentarios de spam en redes sociales o correos electrónicos fraudulentos. Sin embargo, una estrategia adecuada para filtrar mensajes es difícil de lograr, ya que estos mensajes se asemejan a comunicaciones reales. Desde la perspectiva del Procesamiento del Lenguaje Natural (NLP), los modelos de Aprendizaje Profundo son una buena alternativa para clasificar texto después de haber sido preprocesado. En particular, las redes de Memoria a Largo y Corto Plazo (LSTM) son uno de los modelos que funcionan bien para problemas de clasificación de texto binaria y multietiqueta. En este artículo, se presenta un enfoque que combina dos fuentes de datos diferentes, una destinada al spam en publicaciones de redes sociales y la otra para la clasificación de fraude en correos electrónicos. Diseñamos un modelo LSTM multietiqueta y lo entrenamos en los conjuntos de datos conjuntos que incluyen texto con bigramas comunes, extraídos de cada conjunto de datos independiente. Los resultados del experimento muestran que nuestro modelo propuesto es capaz de identificar texto malicioso independientemente de la fuente. El modelo LSTM entrenado con el conjunto de datos combinado supera a los modelos entrenados de forma independiente en cada conjunto de datos.

Otros recursos que podrían interesarte

Temas Virtualpro