logo móvil
Contáctanos

Harmonizer: un marco de tokenización de señales universales para modelos de lenguaje multimodales grandes

Autores: Amiri, Amin; Ghaffarnia, Alireza; Nia, Nafiseh Ghaffar; Wu, Dalei; Liang, Yu

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Harmonizer: un marco de tokenización de señales universales para modelos de lenguaje multimodales grandes


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Marco
Tokenización
Multimodal
FusionQuantizer
Incrustaciones
Vector

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Este documento presenta Harmonizer, un marco universal diseñado para tokenizar señales de entrada heterogéneas, incluyendo texto, audio y video, para permitir una integración fluida en modelos de lenguaje grandes multimodales (LLMs). Harmonizer emplea un enfoque unificado para convertir señales diversas y no lingüísticas en tokens discretos a través de su arquitectura FusionQuantizer, construida sobre FluxFormer, para capturar eficientemente características esenciales de la señal minimizando la complejidad. Mejoramos las características a través de la descomposición espectral basada en STFT, la extracción de señales analíticas mediante la transformada de Hilbert y la optimización de contraste de espectrogramas SCLAHE, y entrenamos usando una función de pérdida compuesta para producir incrustaciones confiables y construir un vocabulario vectorial robusto. La validación experimental en conjuntos de datos de música como E-GMD v1.0.0, Maestro v3.0.0 y GTZAN demuestra una alta fidelidad a lo largo de 288 s de señales vocales (MSE = 0.0037, CC = 0.9282, Sim. de Coseno = 0.9278, DTW = 12.12, Sim. de MFCC = 0.9997, Conv. Espectral = 0.2485). Las pruebas preliminares en reconstrucción de texto y clips de video de UCF-101 confirman aún más la aplicabilidad de Harmonizer en modalidades discretas y espaciotemporales. Arraigado en la universalidad de los fenómenos ondulatorios y la teoría de Fourier, Harmonizer ofrece un mecanismo de fusión inspirado en la física y agnóstico a la modalidad a través de los principios de superposición e interferencia de ondas. En resumen, Harmonizer integra el procesamiento del lenguaje natural y el procesamiento de señales en un paradigma de tokenización coherente para un aprendizaje multimodal eficiente e interpretable.

Otros recursos que podrían interesarte

Temas Virtualpro