Integrando el Reconocimiento de Voz en Sistemas de Información Inteligentes: De Modelos Estadísticos al Aprendizaje Profundo
Autores: Wu, Chaoji; Pan, Yi; Wu, Haipan; Ning, Lei
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Integrando el Reconocimiento de Voz en Sistemas de Información Inteligentes: De Modelos Estadísticos al Aprendizaje Profundo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Reconocimiento automático de voz
Evolución tecnológica
Tecnologías fundamentales
Aplicaciones en el mundo real
Desafíos persistentes
Direcciones futuras de investigación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El reconocimiento automático de voz (ASR) ha avanzado rápidamente, evolucionando de los primeros sistemas de coincidencia de plantillas a los modernos marcos de aprendizaje profundo. Esta revisión traza sistemáticamente la evolución tecnológica del ASR a través de cuatro fases: la era basada en plantillas, los enfoques de modelado estadístico, la revolución del aprendizaje profundo y la aparición de modelos a gran escala bajo diversos paradigmas de aprendizaje. Analizamos tecnologías clave como los modelos ocultos de Markov (HMM), los modelos de mezcla gaussiana (GMM), las redes neuronales recurrentes (RNN) y arquitecturas recientes que incluyen modelos basados en Transformer y Wav2Vec 2.0. Más allá del desarrollo algorítmico, examinamos cómo el ASR se integra en sistemas de información inteligentes, analizando aplicaciones del mundo real en atención médica, educación, hogares inteligentes, sistemas empresariales y dominios automotrices, prestando atención a las consideraciones de implementación y diseño del sistema. También abordamos desafíos persistentes: robustez al ruido, adaptación a recursos limitados y eficiencia en la implementación, mientras exploramos soluciones emergentes como la fusión multimodal, el modelado que preserva la privacidad y arquitecturas ligeras. Finalmente, esbozamos direcciones de investigación futuras para guiar el desarrollo de sistemas ASR robustos, escalables e inteligentes para entornos complejos y en evolución.
Descripción
El reconocimiento automático de voz (ASR) ha avanzado rápidamente, evolucionando de los primeros sistemas de coincidencia de plantillas a los modernos marcos de aprendizaje profundo. Esta revisión traza sistemáticamente la evolución tecnológica del ASR a través de cuatro fases: la era basada en plantillas, los enfoques de modelado estadístico, la revolución del aprendizaje profundo y la aparición de modelos a gran escala bajo diversos paradigmas de aprendizaje. Analizamos tecnologías clave como los modelos ocultos de Markov (HMM), los modelos de mezcla gaussiana (GMM), las redes neuronales recurrentes (RNN) y arquitecturas recientes que incluyen modelos basados en Transformer y Wav2Vec 2.0. Más allá del desarrollo algorítmico, examinamos cómo el ASR se integra en sistemas de información inteligentes, analizando aplicaciones del mundo real en atención médica, educación, hogares inteligentes, sistemas empresariales y dominios automotrices, prestando atención a las consideraciones de implementación y diseño del sistema. También abordamos desafíos persistentes: robustez al ruido, adaptación a recursos limitados y eficiencia en la implementación, mientras exploramos soluciones emergentes como la fusión multimodal, el modelado que preserva la privacidad y arquitecturas ligeras. Finalmente, esbozamos direcciones de investigación futuras para guiar el desarrollo de sistemas ASR robustos, escalables e inteligentes para entornos complejos y en evolución.