logo móvil
Contáctanos

VAD-CLVA: Integrando CLIP con LLaVA para la Detección de Actividad de Voz

Autores: Appiani, Andrea; Beyan, Cigdem

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

VAD-CLVA: Integrando CLIP con LLaVA para la Detección de Actividad de Voz


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Detección de actividad de voz
Vad
Datos audiovisuales
Modelos de clips
Preentrenamiento contrastivo de lenguaje-imagen
Red neuronal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La detección de actividad de voz (VAD) es el proceso de determinar automáticamente si una persona está hablando e identificar el momento de su discurso en datos audiovisuales. Tradicionalmente, esta tarea se ha abordado procesando señales de audio o datos visuales, o combinando ambas modalidades a través de fusión o aprendizaje conjunto. En nuestro estudio, inspirándonos en los recientes avances en modelos de lenguaje visual, introducimos un enfoque novedoso que aprovecha los modelos de Preentrenamiento Contrastivo de Lenguaje e Imagen (CLIP). El codificador visual CLIP analiza segmentos de video centrados en la parte superior del cuerpo de un individuo, mientras que el codificador de texto procesa descripciones textuales generadas por un Modelo Generativo Multimodal Grande, es decir, el Asistente de Lenguaje y Visión Grande (LLaVA). Posteriormente, las incrustaciones de estos codificadores se fusionan a través de una red neuronal profunda para realizar VAD. Nuestro análisis experimental en tres benchmarks de VAD muestra el rendimiento superior de nuestro método en comparación con los enfoques visuales de VAD existentes. Notablemente, nuestro enfoque supera a varios métodos audio-visuales a pesar de su simplicidad y sin requerir preentrenamiento en extensos conjuntos de datos audio-visuales.

Otros recursos que podrían interesarte

Temas Virtualpro