logo móvil
Contáctanos

Un método para la rápida selección de clasificadores de aprendizaje automático para el filtrado de spam

Autores: Rapacz, Sylwia; Choda, Piotr; Natkaniec, Marek

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Un método para la rápida selección de clasificadores de aprendizaje automático para el filtrado de spam


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Análisis de texto
Clasificación
Proceso de filtrado de spam
Meta-algoritmo
Rendimiento del clasificador
Aprendizaje supervisado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 59

Citaciones: Sin citaciones


Descripción
El documento elabora sobre cómo el análisis de texto influye en la clasificación, una parte clave del proceso de filtrado de spam. Los autores proponen un metaalgoritmo de múltiples etapas para verificar el rendimiento del clasificador. Como resultado, el algoritmo permite la rápida selección de los clasificadores de mejor rendimiento, así como el análisis de datos de mayor dimensionalidad. El último aspecto es especialmente importante al analizar grandes conjuntos de datos. El enfoque de validación cruzada entre diferentes conjuntos de datos para el aprendizaje supervisado se aplica en el metaalgoritmo. Tres métodos de aprendizaje automático que permiten a un usuario clasificar correos electrónicos como mensajes deseables (ham) o potencialmente dañinos (spam) fueron comparados en el documento para ilustrar el funcionamiento del metaalgoritmo. Los métodos utilizados son simples, pero como los resultados mostraron, son lo suficientemente poderosos. Utilizamos los siguientes clasificadores: vecinos más cercanos (NN), máquinas de vectores de soporte (SVM) y el clasificador de Bayes ingenuo (NB). La investigación realizada nos llevó a la conclusión de que el clasificador multinomial de Bayes ingenuo puede ser un excelente arma en la lucha contra la cantidad constantemente creciente de mensajes de spam. También se confirmó que la solución propuesta arroja resultados muy precisos.

Otros recursos que podrían interesarte

Temas Virtualpro