Identificación de Texto Malicioso: Aprendizaje Profundo a partir de Comentarios Públicos y Correos Electrónicos
Autores: Baccouche, Asma; Ahmed, Sadaf; Sierra-Sosa, Daniel; Elmaghraby, Adel
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Identificación de Texto Malicioso: Aprendizaje Profundo a partir de Comentarios Públicos y Correos Electrónicos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Spam
Mensajes
Aprendizaje profundo
Redes LSTM
Clasificación multi-etiqueta
Procesamiento de lenguaje natural
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Identificar el spam en internet ha sido un problema desafiante durante décadas. Varias soluciones han logrado detectar comentarios de spam en redes sociales o correos electrónicos fraudulentos. Sin embargo, una estrategia adecuada para filtrar mensajes es difícil de lograr, ya que estos mensajes se asemejan a comunicaciones reales. Desde la perspectiva del Procesamiento del Lenguaje Natural (NLP), los modelos de Aprendizaje Profundo son una buena alternativa para clasificar texto después de haber sido preprocesado. En particular, las redes de Memoria a Largo y Corto Plazo (LSTM) son uno de los modelos que funcionan bien para problemas de clasificación de texto binaria y multietiqueta. En este artículo, se presenta un enfoque que combina dos fuentes de datos diferentes, una destinada al spam en publicaciones de redes sociales y la otra para la clasificación de fraude en correos electrónicos. Diseñamos un modelo LSTM multietiqueta y lo entrenamos en los conjuntos de datos conjuntos que incluyen texto con bigramas comunes, extraídos de cada conjunto de datos independiente. Los resultados del experimento muestran que nuestro modelo propuesto es capaz de identificar texto malicioso independientemente de la fuente. El modelo LSTM entrenado con el conjunto de datos combinado supera a los modelos entrenados de forma independiente en cada conjunto de datos.
Descripción
Identificar el spam en internet ha sido un problema desafiante durante décadas. Varias soluciones han logrado detectar comentarios de spam en redes sociales o correos electrónicos fraudulentos. Sin embargo, una estrategia adecuada para filtrar mensajes es difícil de lograr, ya que estos mensajes se asemejan a comunicaciones reales. Desde la perspectiva del Procesamiento del Lenguaje Natural (NLP), los modelos de Aprendizaje Profundo son una buena alternativa para clasificar texto después de haber sido preprocesado. En particular, las redes de Memoria a Largo y Corto Plazo (LSTM) son uno de los modelos que funcionan bien para problemas de clasificación de texto binaria y multietiqueta. En este artículo, se presenta un enfoque que combina dos fuentes de datos diferentes, una destinada al spam en publicaciones de redes sociales y la otra para la clasificación de fraude en correos electrónicos. Diseñamos un modelo LSTM multietiqueta y lo entrenamos en los conjuntos de datos conjuntos que incluyen texto con bigramas comunes, extraídos de cada conjunto de datos independiente. Los resultados del experimento muestran que nuestro modelo propuesto es capaz de identificar texto malicioso independientemente de la fuente. El modelo LSTM entrenado con el conjunto de datos combinado supera a los modelos entrenados de forma independiente en cada conjunto de datos.