logo móvil
Contáctanos

Redes Generativas Antagónicas (GANs) para el Reconocimiento de Habla Audio-Visual en Inteligencia Artificial IoT

Autores: He, Yibo; Seng, Kah Phooi; Ang, Li Minn

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Redes Generativas Antagónicas (GANs) para el Reconocimiento de Habla Audio-Visual en Inteligencia Artificial IoT


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Propone
Red generativa adversarial multimodal
AVSR
Aplicaciones de IoT
Reconocimiento de voz audiovisual
Datos de sensores multimodales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento propone una nueva arquitectura de red generativa adversarial multimodal AVSR (GAN AVSR multimodal) para mejorar tanto la eficiencia energética como la precisión de clasificación de AVSR en aplicaciones de Internet de las cosas (IoT) de inteligencia artificial. La modalidad de reconocimiento de voz audiovisual (AVSR) es una modalidad multimodal clásica, que se utiliza comúnmente en IoT y sistemas embebidos. Ejemplos de aplicaciones adecuadas de IoT incluyen sistemas de reconocimiento de voz en cabina para sistemas de conducción, AVSR en entornos de realidad aumentada y aplicaciones interactivas como acuarios virtuales. La aplicación de datos de sensores multimodales para aplicaciones de IoT requiere un procesamiento de información eficiente, para cumplir con las limitaciones de hardware de los dispositivos IoT. La arquitectura propuesta de GAN AVSR multimodal está compuesta por un discriminador y un generador, cada uno de los cuales es una red de dos flujos, correspondiente a la información del flujo de audio y la información del flujo visual, respectivamente. Para validar este enfoque, utilizamos datos aumentados de conjuntos de datos bien conocidos (LRS2-Lip Reading Sentences 2 y LRS3) en el proceso de entrenamiento, y las pruebas se realizaron utilizando los datos originales. Los resultados de la investigación y los experimentos mostraron que la arquitectura propuesta de GAN AVSR multimodal mejoró la precisión de clasificación de AVSR. Además, en este estudio, discutimos el dominio de las GAN y proporcionamos un resumen conciso de las GAN propuestas.

Otros recursos que podrían interesarte

Temas Virtualpro