logo móvil
Contáctanos

Visualización de tecnología y aprendizaje profundo para la detección de mensajes de spam multilingües

Autores: Lee, Hwabin; Jeong, Sua; Cho, Seogyeong; Choi, Eunjung

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Visualización de tecnología y aprendizaje profundo para la detección de mensajes de spam multilingües


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Detección de spam
Métodos basados en cadenas
Procesamiento multilingüe
Visualización 2D de CNN
RNN
LSTM

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
La detección de spam es un problema esencial e inevitable en la sociedad actual. La mayoría de los estudios existentes han utilizado métodos de detección basados en cadenas con modelos y se han realizado en un solo idioma, especialmente con conjuntos de datos en inglés. Sin embargo, en la sociedad global actual, se necesita investigación en idiomas distintos al inglés. Los métodos de detección de spam basados en cadenas realizan diferentes pasos de preprocesamiento dependiendo del tipo de idioma debido a las diferencias en las características gramaticales. Por lo tanto, nuestro estudio propone un método de procesamiento de texto y un método de imagen de cadena. La tecnología de visualización 2D de CNN utilizada en este documento puede aplicarse a conjuntos de datos de varios idiomas mediante el procesamiento de los datos como imágenes, por lo que pueden aplicarse igualmente a idiomas distintos al inglés. En este estudio, se utilizaron datos de spam en inglés y coreano. Como resultado de este estudio, los modelos de detección basados en cadenas de RNN, LSTM y CNN 1D mostraron precisión promedio de 0.9871, 0.9906 y 0.9912, respectivamente. Por otro lado, se confirmó que el modelo de detección basado en imágenes de CNN 2D tiene una precisión promedio de 0.9957. A través de este estudio, presentamos una solución que muestra que el procesamiento basado en imágenes es más efectivo que el procesamiento basado en cadenas para datos de cadena y que el procesamiento multilingüe es posible basado en el modelo de CNN 2D.

Otros recursos que podrían interesarte

Temas Virtualpro