logo móvil
Contáctanos

Reconocimiento de Expresiones Faciales en Personajes de Anime y Manga: Un Estudio Comparativo de Transformadores de Visión y Redes Neuronales Convolucionales

Autores: Parrillo, Marco; Santoro, Elia; Laura, Luigi; Rughetti, Valerio

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Reconocimiento de Expresiones Faciales en Personajes de Anime y Manga: Un Estudio Comparativo de Transformadores de Visión y Redes Neuronales Convolucionales


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Reconocimiento de expresiones faciales
Anime
Manga
Modelos de aprendizaje profundo
Redes neuronales convolucionales
Transformadores de visión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El reconocimiento de expresiones faciales (FER) es una tarea bien establecida en la visión por computadora, sin embargo, su aplicación a dominios no fotorealistas, como el anime y el manga, sigue siendo en gran medida inexplorada. Las características faciales estilizadas, exageradas y a menudo no proporcionales de los personajes ilustrados presentan desafíos únicos para los modelos de aprendizaje profundo entrenados predominantemente con imágenes realistas. En este trabajo, construimos un conjunto de datos equilibrado de 3000 imágenes de rostros de manga y anime que abarcan seis categorías de emociones (Enojado, Avergonzado, Feliz, Maníaco-Eufórico, Triste, Asustado) y realizamos una comparación sistemática de dos paradigmas principales de aprendizaje profundo: Redes Neuronales Convolucionales (CNNs) y Transformadores de Visión (ViTs). Específicamente, evaluamos ResNet-18, ResNet-50, ViT-B/16 y ViT-S/16 bajo cuatro estrategias de ajuste fino: sondeo lineal, ajuste fino parcial, ajuste fino completo y descongelamiento progresivo, lo que permite una comparación controlada de ambas familias arquitectónicas y la profundidad del aprendizaje por transferencia. Nuestros resultados muestran que la estrategia de ajuste fino impacta significativamente en el rendimiento: la mejor configuración (ViT-B/16 con descongelamiento progresivo) alcanza un 81.33% de precisión en la prueba (una sola ejecución, semilla 42), en comparación con un 61.33% para la línea base de sondeo lineal más débil (ViT-S/16), una diferencia de 20.00 puntos porcentuales. Para aislar las diferencias arquitectónicas de los efectos de la estrategia, observamos que bajo ajuste fino completo, la única estrategia aplicada de manera idéntica a los cuatro modelos, ViT-S/16 (76.00%) supera a ResNet-18 (74.44%) por 1.56 puntos porcentuales y a ViT-B/16 (74.22%) por 1.78 puntos porcentuales, confirmando una ventaja arquitectónica modesta pero consistente para los Transformadores una vez que se permite la adaptación de la columna vertebral. Los Transformadores de Visión se benefician desproporcionadamente del ajuste fino, y el ranking relativo de las arquitecturas cambia a través de los regímenes de ajuste fino. El análisis de la matriz de confusión revela una confusión persistente entre clases cruzadas entre emociones visualmente similares (por ejemplo, Feliz vs. Avergonzado), mientras que la categoría altamente distintiva Maníaco-Eufórico se reconoce consistentemente bien en todas las arquitecturas. Hasta donde sabemos, este es el primer trabajo que realiza un benchmark controlado de aprendizaje por transferencia multi-arquitectura y multi-estrategia específicamente para FER en anime y manga, revelando hallazgos que no son predecibles a partir de la literatura de FER fotográfica y que tienen implicaciones prácticas directas para la selección de modelos en tareas de reconocimiento visual no fotorealistas. El dominio del anime y el manga proporciona un banco de pruebas controlado de manera única para estudiar el aprendizaje por transferencia bajo una estilización deliberada, donde la brecha de dominio con respecto a las imágenes realistas no es un artefacto de degradación de la imagen o ruido ambiental, sino una elección artística fundamentada con convenciones visuales codificadas; observar que la profundidad del ajuste fino domina la elección arquitectónica en este dominio sugiere que la misma conclusión probablemente se mantenga en otros escenarios de transferencia no fotorealistas, como ilustraciones médicas, dibujos arquitectónicos y datos de entrenamiento sintéticos.

Otros recursos que podrían interesarte

Temas Virtualpro