logo móvil
Contáctanos

Entendiendo el Aprendizaje Auto-Supervisado de la Representación del Habla a través de la Invarianza y la Reducción de Redundancia

Autores: Brima, Yusuf; Krumnack, Ulf; Pika, Simone; Heidemann, Gunther

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Entendiendo el Aprendizaje Auto-Supervisado de la Representación del Habla a través de la Invarianza y la Reducción de Redundancia


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aprendizaje auto-supervisado
SSL
Barlow Twins
BTs
Tareas posteriores
Invariancia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El aprendizaje auto-supervisado (SSL) ha surgido como un paradigma prometedor para aprender representaciones de voz flexibles a partir de datos no etiquetados. Al diseñar tareas pretextuales que explotan regularidades estadísticas, los modelos SSL pueden capturar representaciones útiles que son transferibles a tareas posteriores. Barlow Twins (BTs) es una técnica de SSL inspirada en teorías de reducción de redundancia en la percepción humana. En tareas posteriores, las representaciones de BTs aceleran el aprendizaje y transfieren este aprendizaje a través de aplicaciones. Este estudio aplica BTs a datos de voz y evalúa las representaciones obtenidas en varias tareas posteriores, mostrando la aplicabilidad del enfoque. Sin embargo, existen limitaciones en la separación de factores explicativos clave, siendo la reducción de redundancia y la invariancia por sí solas insuficientes para la factorización de latentes aprendidos en códigos modulares, compactos e informativos. Nuestro estudio de ablación aisló las ganancias de las restricciones de invariancia, pero las ganancias eran dependientes del contexto. En general, este trabajo sustenta el potencial de Barlow Twins para la codificación de voz eficiente en muestras. Sin embargo, persisten desafíos para lograr representaciones completamente jerárquicas. La metodología de análisis y los conocimientos presentados en este documento allanan el camino para extensiones que incorporen más priors inductivos y principios perceptuales para mejorar aún más el marco de auto-supervisión de BTs.

Otros recursos que podrían interesarte

Temas Virtualpro