Redes Generativas Antagónicas (GANs) para el Reconocimiento de Habla Audio-Visual en Inteligencia Artificial IoT

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Redes Generativas Antagónicas (GANs) para el Reconocimiento de Habla Audio-Visual en Inteligencia Artificial IoT

Autores: He, Yibo; Seng, Kah Phooi; Ang, Li Minn

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Redes Generativas Antagónicas (GANs) para el Reconocimiento de Habla Audio-Visual en Inteligencia Artificial IoT

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Propone

Red generativa adversarial multimodal

AVSR

Aplicaciones de IoT

Reconocimiento de voz audiovisual

Datos de sensores multimodales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento propone una nueva arquitectura de red generativa adversarial multimodal AVSR (GAN AVSR multimodal) para mejorar tanto la eficiencia energética como la precisión de clasificación de AVSR en aplicaciones de Internet de las cosas (IoT) de inteligencia artificial. La modalidad de reconocimiento de voz audiovisual (AVSR) es una modalidad multimodal clásica, que se utiliza comúnmente en IoT y sistemas embebidos. Ejemplos de aplicaciones adecuadas de IoT incluyen sistemas de reconocimiento de voz en cabina para sistemas de conducción, AVSR en entornos de realidad aumentada y aplicaciones interactivas como acuarios virtuales. La aplicación de datos de sensores multimodales para aplicaciones de IoT requiere un procesamiento de información eficiente, para cumplir con las limitaciones de hardware de los dispositivos IoT. La arquitectura propuesta de GAN AVSR multimodal está compuesta por un discriminador y un generador, cada uno de los cuales es una red de dos flujos, correspondiente a la información del flujo de audio y la información del flujo visual, respectivamente. Para validar este enfoque, utilizamos datos aumentados de conjuntos de datos bien conocidos (LRS2-Lip Reading Sentences 2 y LRS3) en el proceso de entrenamiento, y las pruebas se realizaron utilizando los datos originales. Los resultados de la investigación y los experimentos mostraron que la arquitectura propuesta de GAN AVSR multimodal mejoró la precisión de clasificación de AVSR. Además, en este estudio, discutimos el dominio de las GAN y proporcionamos un resumen conciso de las GAN propuestas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro