Un método para la rápida selección de clasificadores de aprendizaje automático para el filtrado de spam
Autores: Rapacz, Sylwia; Choda, Piotr; Natkaniec, Marek
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un método para la rápida selección de clasificadores de aprendizaje automático para el filtrado de spam
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Análisis de texto
Clasificación
Proceso de filtrado de spam
Meta-algoritmo
Rendimiento del clasificador
Aprendizaje supervisado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 59
Citaciones: Sin citaciones
El documento elabora sobre cómo el análisis de texto influye en la clasificación, una parte clave del proceso de filtrado de spam. Los autores proponen un metaalgoritmo de múltiples etapas para verificar el rendimiento del clasificador. Como resultado, el algoritmo permite la rápida selección de los clasificadores de mejor rendimiento, así como el análisis de datos de mayor dimensionalidad. El último aspecto es especialmente importante al analizar grandes conjuntos de datos. El enfoque de validación cruzada entre diferentes conjuntos de datos para el aprendizaje supervisado se aplica en el metaalgoritmo. Tres métodos de aprendizaje automático que permiten a un usuario clasificar correos electrónicos como mensajes deseables (ham) o potencialmente dañinos (spam) fueron comparados en el documento para ilustrar el funcionamiento del metaalgoritmo. Los métodos utilizados son simples, pero como los resultados mostraron, son lo suficientemente poderosos. Utilizamos los siguientes clasificadores: vecinos más cercanos (NN), máquinas de vectores de soporte (SVM) y el clasificador de Bayes ingenuo (NB). La investigación realizada nos llevó a la conclusión de que el clasificador multinomial de Bayes ingenuo puede ser un excelente arma en la lucha contra la cantidad constantemente creciente de mensajes de spam. También se confirmó que la solución propuesta arroja resultados muy precisos.
Descripción
El documento elabora sobre cómo el análisis de texto influye en la clasificación, una parte clave del proceso de filtrado de spam. Los autores proponen un metaalgoritmo de múltiples etapas para verificar el rendimiento del clasificador. Como resultado, el algoritmo permite la rápida selección de los clasificadores de mejor rendimiento, así como el análisis de datos de mayor dimensionalidad. El último aspecto es especialmente importante al analizar grandes conjuntos de datos. El enfoque de validación cruzada entre diferentes conjuntos de datos para el aprendizaje supervisado se aplica en el metaalgoritmo. Tres métodos de aprendizaje automático que permiten a un usuario clasificar correos electrónicos como mensajes deseables (ham) o potencialmente dañinos (spam) fueron comparados en el documento para ilustrar el funcionamiento del metaalgoritmo. Los métodos utilizados son simples, pero como los resultados mostraron, son lo suficientemente poderosos. Utilizamos los siguientes clasificadores: vecinos más cercanos (NN), máquinas de vectores de soporte (SVM) y el clasificador de Bayes ingenuo (NB). La investigación realizada nos llevó a la conclusión de que el clasificador multinomial de Bayes ingenuo puede ser un excelente arma en la lucha contra la cantidad constantemente creciente de mensajes de spam. También se confirmó que la solución propuesta arroja resultados muy precisos.