Harmonizer: un marco de tokenización de señales universales para modelos de lenguaje multimodales grandes
Autores: Amiri, Amin; Ghaffarnia, Alireza; Nia, Nafiseh Ghaffar; Wu, Dalei; Liang, Yu
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Harmonizer: un marco de tokenización de señales universales para modelos de lenguaje multimodales grandes
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Marco
Tokenización
Multimodal
FusionQuantizer
Incrustaciones
Vector
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Este documento presenta Harmonizer, un marco universal diseñado para tokenizar señales de entrada heterogéneas, incluyendo texto, audio y video, para permitir una integración fluida en modelos de lenguaje grandes multimodales (LLMs). Harmonizer emplea un enfoque unificado para convertir señales diversas y no lingüísticas en tokens discretos a través de su arquitectura FusionQuantizer, construida sobre FluxFormer, para capturar eficientemente características esenciales de la señal minimizando la complejidad. Mejoramos las características a través de la descomposición espectral basada en STFT, la extracción de señales analíticas mediante la transformada de Hilbert y la optimización de contraste de espectrogramas SCLAHE, y entrenamos usando una función de pérdida compuesta para producir incrustaciones confiables y construir un vocabulario vectorial robusto. La validación experimental en conjuntos de datos de música como E-GMD v1.0.0, Maestro v3.0.0 y GTZAN demuestra una alta fidelidad a lo largo de 288 s de señales vocales (MSE = 0.0037, CC = 0.9282, Sim. de Coseno = 0.9278, DTW = 12.12, Sim. de MFCC = 0.9997, Conv. Espectral = 0.2485). Las pruebas preliminares en reconstrucción de texto y clips de video de UCF-101 confirman aún más la aplicabilidad de Harmonizer en modalidades discretas y espaciotemporales. Arraigado en la universalidad de los fenómenos ondulatorios y la teoría de Fourier, Harmonizer ofrece un mecanismo de fusión inspirado en la física y agnóstico a la modalidad a través de los principios de superposición e interferencia de ondas. En resumen, Harmonizer integra el procesamiento del lenguaje natural y el procesamiento de señales en un paradigma de tokenización coherente para un aprendizaje multimodal eficiente e interpretable.
Descripción
Este documento presenta Harmonizer, un marco universal diseñado para tokenizar señales de entrada heterogéneas, incluyendo texto, audio y video, para permitir una integración fluida en modelos de lenguaje grandes multimodales (LLMs). Harmonizer emplea un enfoque unificado para convertir señales diversas y no lingüísticas en tokens discretos a través de su arquitectura FusionQuantizer, construida sobre FluxFormer, para capturar eficientemente características esenciales de la señal minimizando la complejidad. Mejoramos las características a través de la descomposición espectral basada en STFT, la extracción de señales analíticas mediante la transformada de Hilbert y la optimización de contraste de espectrogramas SCLAHE, y entrenamos usando una función de pérdida compuesta para producir incrustaciones confiables y construir un vocabulario vectorial robusto. La validación experimental en conjuntos de datos de música como E-GMD v1.0.0, Maestro v3.0.0 y GTZAN demuestra una alta fidelidad a lo largo de 288 s de señales vocales (MSE = 0.0037, CC = 0.9282, Sim. de Coseno = 0.9278, DTW = 12.12, Sim. de MFCC = 0.9997, Conv. Espectral = 0.2485). Las pruebas preliminares en reconstrucción de texto y clips de video de UCF-101 confirman aún más la aplicabilidad de Harmonizer en modalidades discretas y espaciotemporales. Arraigado en la universalidad de los fenómenos ondulatorios y la teoría de Fourier, Harmonizer ofrece un mecanismo de fusión inspirado en la física y agnóstico a la modalidad a través de los principios de superposición e interferencia de ondas. En resumen, Harmonizer integra el procesamiento del lenguaje natural y el procesamiento de señales en un paradigma de tokenización coherente para un aprendizaje multimodal eficiente e interpretable.