Vox2Face: Generación de rostros impulsada por el habla a través de la alineación en el espacio de identidad y la auto-consistencia de difusión

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Vox2Face: Generación de rostros impulsada por el habla a través de la alineación en el espacio de identidad y la auto-consistencia de difusión

Autores: Ma, Qiming; Wang, Yizhen; Sun, Xiang; Liu, Jiadi; Cheng, Gang; Feng, Jia; Wang, Rong; Bu, Fanliang

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Vox2Face: Generación de rostros impulsada por el habla a través de la alineación en el espacio de identidad y la auto-consistencia de difusión

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Impulsado por el habla

Generación de rostros

Espacio de identidad

Vox2Face

Modelo de difusión

Incrustaciones de habla

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La generación de rostros impulsada por el habla tiene como objetivo sintetizar una imagen facial que coincida con la identidad de un hablante solo a partir del habla. Sin embargo, los métodos existentes suelen intercambiar la fidelidad de la identidad por la calidad visual y dependen de grandes generadores de extremo a extremo que son difíciles de entrenar y ajustar. Proponemos Vox2Face, un marco de generación de rostros impulsado por el habla centrado en un espacio de identidad explícito en lugar de un mapeo directo de habla a imagen. Un codificador de hablante preentrenado primero extrae incrustaciones de habla, que se destilan y alinean métricamente al espacio de identidad hiperesférico de ArcFace, transformando la regresión cruzada en un problema de alineación de habla a identidad geométricamente interpretable. Sobre esta representación de identidad unificada, reutilizamos un modelo de difusión condicionado por identidad como la columna vertebral generativa y sintetizamos rostros diversos y de alta resolución en el espacio latente de Stable Diffusion. Para aprovechar mejor este previo, introducimos una pérdida de auto-consistencia de difusión sin discriminador que trata los residuos de eliminación de ruido como una crítica implícita de las incrustaciones de identidad predichas por el habla y actualiza solo el mapeo de habla a identidad y los adaptadores ligeros de LoRA, alentando a que las identidades derivadas del habla se ubiquen en el manifold de identidad de alta probabilidad del modelo de difusión. Los experimentos en el conjunto de datos HQ-VoxCeleb muestran que Vox2Face mejora la similitud coseno de ArcFace de 0.295 a 0.322, aumenta la precisión de recuperación R@10 del 29.8% al 32.1%, y eleva la puntuación de VGGFace de 18.82 a 23.21 sobre una sólida línea base de difusión. Estos resultados indican que alinear el habla a un espacio de identidad unificado y reutilizar un fuerte previo de difusión condicionado por identidad es un método efectivo para mejorar conjuntamente la fidelidad de la identidad y la calidad visual.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro