Visualización de tecnología y aprendizaje profundo para la detección de mensajes de spam multilingües
Autores: Lee, Hwabin; Jeong, Sua; Cho, Seogyeong; Choi, Eunjung
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Visualización de tecnología y aprendizaje profundo para la detección de mensajes de spam multilingües
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección de spam
Métodos basados en cadenas
Procesamiento multilingüe
Visualización 2D de CNN
RNN
LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La detección de spam es un problema esencial e inevitable en la sociedad actual. La mayoría de los estudios existentes han utilizado métodos de detección basados en cadenas con modelos y se han realizado en un solo idioma, especialmente con conjuntos de datos en inglés. Sin embargo, en la sociedad global actual, se necesita investigación en idiomas distintos al inglés. Los métodos de detección de spam basados en cadenas realizan diferentes pasos de preprocesamiento dependiendo del tipo de idioma debido a las diferencias en las características gramaticales. Por lo tanto, nuestro estudio propone un método de procesamiento de texto y un método de imagen de cadena. La tecnología de visualización 2D de CNN utilizada en este documento puede aplicarse a conjuntos de datos de varios idiomas mediante el procesamiento de los datos como imágenes, por lo que pueden aplicarse igualmente a idiomas distintos al inglés. En este estudio, se utilizaron datos de spam en inglés y coreano. Como resultado de este estudio, los modelos de detección basados en cadenas de RNN, LSTM y CNN 1D mostraron precisión promedio de 0.9871, 0.9906 y 0.9912, respectivamente. Por otro lado, se confirmó que el modelo de detección basado en imágenes de CNN 2D tiene una precisión promedio de 0.9957. A través de este estudio, presentamos una solución que muestra que el procesamiento basado en imágenes es más efectivo que el procesamiento basado en cadenas para datos de cadena y que el procesamiento multilingüe es posible basado en el modelo de CNN 2D.
Descripción
La detección de spam es un problema esencial e inevitable en la sociedad actual. La mayoría de los estudios existentes han utilizado métodos de detección basados en cadenas con modelos y se han realizado en un solo idioma, especialmente con conjuntos de datos en inglés. Sin embargo, en la sociedad global actual, se necesita investigación en idiomas distintos al inglés. Los métodos de detección de spam basados en cadenas realizan diferentes pasos de preprocesamiento dependiendo del tipo de idioma debido a las diferencias en las características gramaticales. Por lo tanto, nuestro estudio propone un método de procesamiento de texto y un método de imagen de cadena. La tecnología de visualización 2D de CNN utilizada en este documento puede aplicarse a conjuntos de datos de varios idiomas mediante el procesamiento de los datos como imágenes, por lo que pueden aplicarse igualmente a idiomas distintos al inglés. En este estudio, se utilizaron datos de spam en inglés y coreano. Como resultado de este estudio, los modelos de detección basados en cadenas de RNN, LSTM y CNN 1D mostraron precisión promedio de 0.9871, 0.9906 y 0.9912, respectivamente. Por otro lado, se confirmó que el modelo de detección basado en imágenes de CNN 2D tiene una precisión promedio de 0.9957. A través de este estudio, presentamos una solución que muestra que el procesamiento basado en imágenes es más efectivo que el procesamiento basado en cadenas para datos de cadena y que el procesamiento multilingüe es posible basado en el modelo de CNN 2D.