Una Revisión Sistemática de Arquitecturas de CNN, Bases de Datos, Métricas de Rendimiento y Aplicaciones en el Reconocimiento Facial
Autores: Nemavhola, Andisani; Chibaya, Colin; Viriri, Serestina
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Una Revisión Sistemática de Arquitecturas de CNN, Bases de Datos, Métricas de Rendimiento y Aplicaciones en el Reconocimiento Facial
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Estudio
Bases de datos de reconocimiento facial
Red neuronal convolucional
Arquitecturas de CNN
Entrenamiento a gran escala
Precisión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este estudio proporciona una evaluación comparativa de bases de datos de reconocimiento facial y arquitecturas de Redes Neuronales Convolucionales (CNN) utilizadas en el entrenamiento y prueba de sistemas de reconocimiento facial. Las bases de datos abarcan desde conjuntos de datos tempranos como el Laboratorio de Investigación Olivetti (ORL) y la Tecnología de Reconocimiento Facial (FERET) hasta colecciones más recientes como MegaFace y Ms-Celeb-1M, ofreciendo una variedad de tamaños, diversidad de sujetos y calidad de imagen. Las bases de datos más antiguas, como ORL y FERET, son más pequeñas y limpias, mientras que los conjuntos de datos más nuevos permiten un entrenamiento a gran escala con millones de imágenes, pero presentan desafíos como la calidad de datos inconsistente y altos costos computacionales. El estudio también examina arquitecturas de CNN, incluyendo FaceNet y el Grupo de Geometría Visual 16 (VGG16), que muestran un rendimiento sólido en grandes conjuntos de datos como Labeled Faces in the Wild (LFW) y VGGFace, logrando tasas de precisión superiores al 98%. En contraste, modelos anteriores como la Máquina de Soporte Vectorial (SVM) y las Ondas de Gabor funcionan bien en conjuntos de datos más pequeños, pero carecen de escalabilidad para conjuntos de datos más grandes y complejos. El análisis destaca la creciente importancia del aprendizaje multitarea y los métodos de conjunto, como se observa en las Redes Neuronales Convolucionales en Cascada Multitarea (MTCNN). En general, los hallazgos enfatizan la necesidad de algoritmos avanzados capaces de manejar desafíos del mundo real a gran escala, optimizando la precisión y la eficiencia computacional en los sistemas de reconocimiento facial.
Descripción
Este estudio proporciona una evaluación comparativa de bases de datos de reconocimiento facial y arquitecturas de Redes Neuronales Convolucionales (CNN) utilizadas en el entrenamiento y prueba de sistemas de reconocimiento facial. Las bases de datos abarcan desde conjuntos de datos tempranos como el Laboratorio de Investigación Olivetti (ORL) y la Tecnología de Reconocimiento Facial (FERET) hasta colecciones más recientes como MegaFace y Ms-Celeb-1M, ofreciendo una variedad de tamaños, diversidad de sujetos y calidad de imagen. Las bases de datos más antiguas, como ORL y FERET, son más pequeñas y limpias, mientras que los conjuntos de datos más nuevos permiten un entrenamiento a gran escala con millones de imágenes, pero presentan desafíos como la calidad de datos inconsistente y altos costos computacionales. El estudio también examina arquitecturas de CNN, incluyendo FaceNet y el Grupo de Geometría Visual 16 (VGG16), que muestran un rendimiento sólido en grandes conjuntos de datos como Labeled Faces in the Wild (LFW) y VGGFace, logrando tasas de precisión superiores al 98%. En contraste, modelos anteriores como la Máquina de Soporte Vectorial (SVM) y las Ondas de Gabor funcionan bien en conjuntos de datos más pequeños, pero carecen de escalabilidad para conjuntos de datos más grandes y complejos. El análisis destaca la creciente importancia del aprendizaje multitarea y los métodos de conjunto, como se observa en las Redes Neuronales Convolucionales en Cascada Multitarea (MTCNN). En general, los hallazgos enfatizan la necesidad de algoritmos avanzados capaces de manejar desafíos del mundo real a gran escala, optimizando la precisión y la eficiencia computacional en los sistemas de reconocimiento facial.