Reconocimiento de expresiones faciales en entornos naturales para imágenes de baja resolución utilizando una Red Residual de Votación
Autores: Gómez-Sirvent, José L.; López de la Rosa, Francisco; López, María T.; Fernández-Caballero, Antonio
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento de expresiones faciales en entornos naturales para imágenes de baja resolución utilizando una Red Residual de Votación
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de expresiones faciales
Modelos de aprendizaje profundo
Imágenes de baja resolución
Red de votación residual
ResNet-18 modificado
Conjuntos de datos de referencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
El reconocimiento de expresiones faciales (FER) en la naturaleza ha atraído mucha atención en los últimos años debido a su amplia gama de aplicaciones. La mayoría de los enfoques actuales utilizan modelos de aprendizaje profundo entrenados en imágenes relativamente grandes, lo que reduce significativamente su precisión cuando tienen que inferir imágenes de baja resolución. En este documento, se propone una red de votación residual para la clasificación de imágenes de expresiones faciales de baja resolución. Específicamente, la red consta de una ResNet-18 modificada, que divide cada muestra en múltiples recortes superpuestos, realiza una predicción de la clase a la que pertenece cada uno de los recortes y, mediante el voto suave de las predicciones de todos los recortes, la red determina la clase de la muestra. Un aspecto novedoso de este trabajo es que la división de la imagen no se realiza antes de ingresar a la red, sino en un punto intermedio de la red, lo que reduce significativamente el consumo de recursos. El enfoque propuesto se evaluó en dos conjuntos de datos de referencia populares (AffectNet y RAF-DB) escalando las imágenes a un tamaño de entrada de red de 48 x 48. El modelo propuesto informó una precisión del 63.06% en AffectNet y del 85.69% en RAF-DB con siete clases en ambos casos, valores comparables a los proporcionados por otros enfoques actuales que utilizan imágenes mucho más grandes.
Descripción
El reconocimiento de expresiones faciales (FER) en la naturaleza ha atraído mucha atención en los últimos años debido a su amplia gama de aplicaciones. La mayoría de los enfoques actuales utilizan modelos de aprendizaje profundo entrenados en imágenes relativamente grandes, lo que reduce significativamente su precisión cuando tienen que inferir imágenes de baja resolución. En este documento, se propone una red de votación residual para la clasificación de imágenes de expresiones faciales de baja resolución. Específicamente, la red consta de una ResNet-18 modificada, que divide cada muestra en múltiples recortes superpuestos, realiza una predicción de la clase a la que pertenece cada uno de los recortes y, mediante el voto suave de las predicciones de todos los recortes, la red determina la clase de la muestra. Un aspecto novedoso de este trabajo es que la división de la imagen no se realiza antes de ingresar a la red, sino en un punto intermedio de la red, lo que reduce significativamente el consumo de recursos. El enfoque propuesto se evaluó en dos conjuntos de datos de referencia populares (AffectNet y RAF-DB) escalando las imágenes a un tamaño de entrada de red de 48 x 48. El modelo propuesto informó una precisión del 63.06% en AffectNet y del 85.69% en RAF-DB con siete clases en ambos casos, valores comparables a los proporcionados por otros enfoques actuales que utilizan imágenes mucho más grandes.