Modelo eficiente de DNN para la lectura de labios de palabras

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Modelo eficiente de DNN para la lectura de labios de palabras

Autores: Arakane, Taiki; Saitoh, Takeshi

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Modelo eficiente de DNN para la lectura de labios de palabras

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Modelos de aprendizaje profundo

Tecnología de lectura de labios a nivel de palabra

Aprendizaje supervisado

Clasificación de videos

Conjuntos de datos públicos

Lectura de labios en la naturaleza

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones

Este documento estudia varios modelos de aprendizaje profundo para la tecnología de lectura labial a nivel de palabras, una de las tareas en el aprendizaje supervisado de clasificación de video. Varios conjuntos de datos públicos han sido publicados en el campo de investigación de la lectura labial. Sin embargo, pocos estudios han investigado técnicas de lectura labial utilizando múltiples conjuntos de datos. Este documento evalúa modelos de aprendizaje profundo utilizando cuatro conjuntos de datos disponibles públicamente, a saber, Lip Reading in the Wild (LRW), OuluVS, CUAVE y Speech Scene by Smart Device (SSSD), que son conjuntos de datos representativos en este campo. LRW es uno de los conjuntos de datos públicos a gran escala y se centra en 500 palabras en inglés lanzadas en 2016. Inicialmente, la precisión de reconocimiento de LRW era del 66.1%, pero muchos grupos de investigación han estado trabajando en ello. El estado del arte actual (SOTA) ha logrado el 94.1% mediante 3D-Conv + ResNet18 + {DC-TCN, MS-TCN, BGRU} + destilación de conocimiento + límite de palabras. Respecto al modelo SOTA, en este documento combinamos modelos existentes como ResNet, WideResNet, WideResNet, EfficientNet, MS-TCN, Transformer, ViT y ViViT, e investigamos los modelos efectivos para tareas de lectura labial de palabras utilizando seis modelos de aprendizaje profundo con extractores de características y clasificadores modificados. A través de experimentos de reconocimiento, mostramos que estructuras de modelos similares de 3D-Conv + ResNet18 para extracción de características y el modelo MS-TCN para inferencia son válidos para cuatro conjuntos de datos con diferentes escalas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro