Entendiendo el Aprendizaje Auto-Supervisado de la Representación del Habla a través de la Invarianza y la Reducción de Redundancia

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Entendiendo el Aprendizaje Auto-Supervisado de la Representación del Habla a través de la Invarianza y la Reducción de Redundancia

Autores: Brima, Yusuf; Krumnack, Ulf; Pika, Simone; Heidemann, Gunther

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Entendiendo el Aprendizaje Auto-Supervisado de la Representación del Habla a través de la Invarianza y la Reducción de Redundancia

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aprendizaje auto-supervisado

SSL

Barlow Twins

BTs

Tareas posteriores

Invariancia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El aprendizaje auto-supervisado (SSL) ha surgido como un paradigma prometedor para aprender representaciones de voz flexibles a partir de datos no etiquetados. Al diseñar tareas pretextuales que explotan regularidades estadísticas, los modelos SSL pueden capturar representaciones útiles que son transferibles a tareas posteriores. Barlow Twins (BTs) es una técnica de SSL inspirada en teorías de reducción de redundancia en la percepción humana. En tareas posteriores, las representaciones de BTs aceleran el aprendizaje y transfieren este aprendizaje a través de aplicaciones. Este estudio aplica BTs a datos de voz y evalúa las representaciones obtenidas en varias tareas posteriores, mostrando la aplicabilidad del enfoque. Sin embargo, existen limitaciones en la separación de factores explicativos clave, siendo la reducción de redundancia y la invariancia por sí solas insuficientes para la factorización de latentes aprendidos en códigos modulares, compactos e informativos. Nuestro estudio de ablación aisló las ganancias de las restricciones de invariancia, pero las ganancias eran dependientes del contexto. En general, este trabajo sustenta el potencial de Barlow Twins para la codificación de voz eficiente en muestras. Sin embargo, persisten desafíos para lograr representaciones completamente jerárquicas. La metodología de análisis y los conocimientos presentados en este documento allanan el camino para extensiones que incorporen más priors inductivos y principios perceptuales para mejorar aún más el marco de auto-supervisión de BTs.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro