VAD-CLVA: Integrando CLIP con LLaVA para la Detección de Actividad de Voz

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

VAD-CLVA: Integrando CLIP con LLaVA para la Detección de Actividad de Voz

Autores: Appiani, Andrea; Beyan, Cigdem

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

VAD-CLVA: Integrando CLIP con LLaVA para la Detección de Actividad de Voz

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Detección de actividad de voz

Vad

Datos audiovisuales

Modelos de clips

Preentrenamiento contrastivo de lenguaje-imagen

Red neuronal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La detección de actividad de voz (VAD) es el proceso de determinar automáticamente si una persona está hablando e identificar el momento de su discurso en datos audiovisuales. Tradicionalmente, esta tarea se ha abordado procesando señales de audio o datos visuales, o combinando ambas modalidades a través de fusión o aprendizaje conjunto. En nuestro estudio, inspirándonos en los recientes avances en modelos de lenguaje visual, introducimos un enfoque novedoso que aprovecha los modelos de Preentrenamiento Contrastivo de Lenguaje e Imagen (CLIP). El codificador visual CLIP analiza segmentos de video centrados en la parte superior del cuerpo de un individuo, mientras que el codificador de texto procesa descripciones textuales generadas por un Modelo Generativo Multimodal Grande, es decir, el Asistente de Lenguaje y Visión Grande (LLaVA). Posteriormente, las incrustaciones de estos codificadores se fusionan a través de una red neuronal profunda para realizar VAD. Nuestro análisis experimental en tres benchmarks de VAD muestra el rendimiento superior de nuestro método en comparación con los enfoques visuales de VAD existentes. Notablemente, nuestro enfoque supera a varios métodos audio-visuales a pesar de su simplicidad y sin requerir preentrenamiento en extensos conjuntos de datos audio-visuales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro