Redes Generativas Antagónicas (GANs) para el Reconocimiento de Habla Audio-Visual en Inteligencia Artificial IoT
Autores: He, Yibo; Seng, Kah Phooi; Ang, Li Minn
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Redes Generativas Antagónicas (GANs) para el Reconocimiento de Habla Audio-Visual en Inteligencia Artificial IoT
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Propone
Red generativa adversarial multimodal
AVSR
Aplicaciones de IoT
Reconocimiento de voz audiovisual
Datos de sensores multimodales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento propone una nueva arquitectura de red generativa adversarial multimodal AVSR (GAN AVSR multimodal) para mejorar tanto la eficiencia energética como la precisión de clasificación de AVSR en aplicaciones de Internet de las cosas (IoT) de inteligencia artificial. La modalidad de reconocimiento de voz audiovisual (AVSR) es una modalidad multimodal clásica, que se utiliza comúnmente en IoT y sistemas embebidos. Ejemplos de aplicaciones adecuadas de IoT incluyen sistemas de reconocimiento de voz en cabina para sistemas de conducción, AVSR en entornos de realidad aumentada y aplicaciones interactivas como acuarios virtuales. La aplicación de datos de sensores multimodales para aplicaciones de IoT requiere un procesamiento de información eficiente, para cumplir con las limitaciones de hardware de los dispositivos IoT. La arquitectura propuesta de GAN AVSR multimodal está compuesta por un discriminador y un generador, cada uno de los cuales es una red de dos flujos, correspondiente a la información del flujo de audio y la información del flujo visual, respectivamente. Para validar este enfoque, utilizamos datos aumentados de conjuntos de datos bien conocidos (LRS2-Lip Reading Sentences 2 y LRS3) en el proceso de entrenamiento, y las pruebas se realizaron utilizando los datos originales. Los resultados de la investigación y los experimentos mostraron que la arquitectura propuesta de GAN AVSR multimodal mejoró la precisión de clasificación de AVSR. Además, en este estudio, discutimos el dominio de las GAN y proporcionamos un resumen conciso de las GAN propuestas.
Descripción
Este documento propone una nueva arquitectura de red generativa adversarial multimodal AVSR (GAN AVSR multimodal) para mejorar tanto la eficiencia energética como la precisión de clasificación de AVSR en aplicaciones de Internet de las cosas (IoT) de inteligencia artificial. La modalidad de reconocimiento de voz audiovisual (AVSR) es una modalidad multimodal clásica, que se utiliza comúnmente en IoT y sistemas embebidos. Ejemplos de aplicaciones adecuadas de IoT incluyen sistemas de reconocimiento de voz en cabina para sistemas de conducción, AVSR en entornos de realidad aumentada y aplicaciones interactivas como acuarios virtuales. La aplicación de datos de sensores multimodales para aplicaciones de IoT requiere un procesamiento de información eficiente, para cumplir con las limitaciones de hardware de los dispositivos IoT. La arquitectura propuesta de GAN AVSR multimodal está compuesta por un discriminador y un generador, cada uno de los cuales es una red de dos flujos, correspondiente a la información del flujo de audio y la información del flujo visual, respectivamente. Para validar este enfoque, utilizamos datos aumentados de conjuntos de datos bien conocidos (LRS2-Lip Reading Sentences 2 y LRS3) en el proceso de entrenamiento, y las pruebas se realizaron utilizando los datos originales. Los resultados de la investigación y los experimentos mostraron que la arquitectura propuesta de GAN AVSR multimodal mejoró la precisión de clasificación de AVSR. Además, en este estudio, discutimos el dominio de las GAN y proporcionamos un resumen conciso de las GAN propuestas.