VAD-CLVA: Integrando CLIP con LLaVA para la Detección de Actividad de Voz
Autores: Appiani, Andrea; Beyan, Cigdem
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
VAD-CLVA: Integrando CLIP con LLaVA para la Detección de Actividad de Voz
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Detección de actividad de voz
Vad
Datos audiovisuales
Modelos de clips
Preentrenamiento contrastivo de lenguaje-imagen
Red neuronal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección de actividad de voz (VAD) es el proceso de determinar automáticamente si una persona está hablando e identificar el momento de su discurso en datos audiovisuales. Tradicionalmente, esta tarea se ha abordado procesando señales de audio o datos visuales, o combinando ambas modalidades a través de fusión o aprendizaje conjunto. En nuestro estudio, inspirándonos en los recientes avances en modelos de lenguaje visual, introducimos un enfoque novedoso que aprovecha los modelos de Preentrenamiento Contrastivo de Lenguaje e Imagen (CLIP). El codificador visual CLIP analiza segmentos de video centrados en la parte superior del cuerpo de un individuo, mientras que el codificador de texto procesa descripciones textuales generadas por un Modelo Generativo Multimodal Grande, es decir, el Asistente de Lenguaje y Visión Grande (LLaVA). Posteriormente, las incrustaciones de estos codificadores se fusionan a través de una red neuronal profunda para realizar VAD. Nuestro análisis experimental en tres benchmarks de VAD muestra el rendimiento superior de nuestro método en comparación con los enfoques visuales de VAD existentes. Notablemente, nuestro enfoque supera a varios métodos audio-visuales a pesar de su simplicidad y sin requerir preentrenamiento en extensos conjuntos de datos audio-visuales.
Descripción
La detección de actividad de voz (VAD) es el proceso de determinar automáticamente si una persona está hablando e identificar el momento de su discurso en datos audiovisuales. Tradicionalmente, esta tarea se ha abordado procesando señales de audio o datos visuales, o combinando ambas modalidades a través de fusión o aprendizaje conjunto. En nuestro estudio, inspirándonos en los recientes avances en modelos de lenguaje visual, introducimos un enfoque novedoso que aprovecha los modelos de Preentrenamiento Contrastivo de Lenguaje e Imagen (CLIP). El codificador visual CLIP analiza segmentos de video centrados en la parte superior del cuerpo de un individuo, mientras que el codificador de texto procesa descripciones textuales generadas por un Modelo Generativo Multimodal Grande, es decir, el Asistente de Lenguaje y Visión Grande (LLaVA). Posteriormente, las incrustaciones de estos codificadores se fusionan a través de una red neuronal profunda para realizar VAD. Nuestro análisis experimental en tres benchmarks de VAD muestra el rendimiento superior de nuestro método en comparación con los enfoques visuales de VAD existentes. Notablemente, nuestro enfoque supera a varios métodos audio-visuales a pesar de su simplicidad y sin requerir preentrenamiento en extensos conjuntos de datos audio-visuales.