Vox2Face: Generación de rostros impulsada por el habla a través de la alineación en el espacio de identidad y la auto-consistencia de difusión
Autores: Ma, Qiming; Wang, Yizhen; Sun, Xiang; Liu, Jiadi; Cheng, Gang; Feng, Jia; Wang, Rong; Bu, Fanliang
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Vox2Face: Generación de rostros impulsada por el habla a través de la alineación en el espacio de identidad y la auto-consistencia de difusión
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Impulsado por el habla
Generación de rostros
Espacio de identidad
Vox2Face
Modelo de difusión
Incrustaciones de habla
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La generación de rostros impulsada por el habla tiene como objetivo sintetizar una imagen facial que coincida con la identidad de un hablante solo a partir del habla. Sin embargo, los métodos existentes suelen intercambiar la fidelidad de la identidad por la calidad visual y dependen de grandes generadores de extremo a extremo que son difíciles de entrenar y ajustar. Proponemos Vox2Face, un marco de generación de rostros impulsado por el habla centrado en un espacio de identidad explícito en lugar de un mapeo directo de habla a imagen. Un codificador de hablante preentrenado primero extrae incrustaciones de habla, que se destilan y alinean métricamente al espacio de identidad hiperesférico de ArcFace, transformando la regresión cruzada en un problema de alineación de habla a identidad geométricamente interpretable. Sobre esta representación de identidad unificada, reutilizamos un modelo de difusión condicionado por identidad como la columna vertebral generativa y sintetizamos rostros diversos y de alta resolución en el espacio latente de Stable Diffusion. Para aprovechar mejor este previo, introducimos una pérdida de auto-consistencia de difusión sin discriminador que trata los residuos de eliminación de ruido como una crítica implícita de las incrustaciones de identidad predichas por el habla y actualiza solo el mapeo de habla a identidad y los adaptadores ligeros de LoRA, alentando a que las identidades derivadas del habla se ubiquen en el manifold de identidad de alta probabilidad del modelo de difusión. Los experimentos en el conjunto de datos HQ-VoxCeleb muestran que Vox2Face mejora la similitud coseno de ArcFace de 0.295 a 0.322, aumenta la precisión de recuperación R@10 del 29.8% al 32.1%, y eleva la puntuación de VGGFace de 18.82 a 23.21 sobre una sólida línea base de difusión. Estos resultados indican que alinear el habla a un espacio de identidad unificado y reutilizar un fuerte previo de difusión condicionado por identidad es un método efectivo para mejorar conjuntamente la fidelidad de la identidad y la calidad visual.
Descripción
La generación de rostros impulsada por el habla tiene como objetivo sintetizar una imagen facial que coincida con la identidad de un hablante solo a partir del habla. Sin embargo, los métodos existentes suelen intercambiar la fidelidad de la identidad por la calidad visual y dependen de grandes generadores de extremo a extremo que son difíciles de entrenar y ajustar. Proponemos Vox2Face, un marco de generación de rostros impulsado por el habla centrado en un espacio de identidad explícito en lugar de un mapeo directo de habla a imagen. Un codificador de hablante preentrenado primero extrae incrustaciones de habla, que se destilan y alinean métricamente al espacio de identidad hiperesférico de ArcFace, transformando la regresión cruzada en un problema de alineación de habla a identidad geométricamente interpretable. Sobre esta representación de identidad unificada, reutilizamos un modelo de difusión condicionado por identidad como la columna vertebral generativa y sintetizamos rostros diversos y de alta resolución en el espacio latente de Stable Diffusion. Para aprovechar mejor este previo, introducimos una pérdida de auto-consistencia de difusión sin discriminador que trata los residuos de eliminación de ruido como una crítica implícita de las incrustaciones de identidad predichas por el habla y actualiza solo el mapeo de habla a identidad y los adaptadores ligeros de LoRA, alentando a que las identidades derivadas del habla se ubiquen en el manifold de identidad de alta probabilidad del modelo de difusión. Los experimentos en el conjunto de datos HQ-VoxCeleb muestran que Vox2Face mejora la similitud coseno de ArcFace de 0.295 a 0.322, aumenta la precisión de recuperación R@10 del 29.8% al 32.1%, y eleva la puntuación de VGGFace de 18.82 a 23.21 sobre una sólida línea base de difusión. Estos resultados indican que alinear el habla a un espacio de identidad unificado y reutilizar un fuerte previo de difusión condicionado por identidad es un método efectivo para mejorar conjuntamente la fidelidad de la identidad y la calidad visual.