Modelo eficiente de DNN para la lectura de labios de palabras
Autores: Arakane, Taiki; Saitoh, Takeshi
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Modelo eficiente de DNN para la lectura de labios de palabras
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Modelos de aprendizaje profundo
Tecnología de lectura de labios a nivel de palabra
Aprendizaje supervisado
Clasificación de videos
Conjuntos de datos públicos
Lectura de labios en la naturaleza
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Este documento estudia varios modelos de aprendizaje profundo para la tecnología de lectura labial a nivel de palabras, una de las tareas en el aprendizaje supervisado de clasificación de video. Varios conjuntos de datos públicos han sido publicados en el campo de investigación de la lectura labial. Sin embargo, pocos estudios han investigado técnicas de lectura labial utilizando múltiples conjuntos de datos. Este documento evalúa modelos de aprendizaje profundo utilizando cuatro conjuntos de datos disponibles públicamente, a saber, Lip Reading in the Wild (LRW), OuluVS, CUAVE y Speech Scene by Smart Device (SSSD), que son conjuntos de datos representativos en este campo. LRW es uno de los conjuntos de datos públicos a gran escala y se centra en 500 palabras en inglés lanzadas en 2016. Inicialmente, la precisión de reconocimiento de LRW era del 66.1%, pero muchos grupos de investigación han estado trabajando en ello. El estado del arte actual (SOTA) ha logrado el 94.1% mediante 3D-Conv + ResNet18 + {DC-TCN, MS-TCN, BGRU} + destilación de conocimiento + límite de palabras. Respecto al modelo SOTA, en este documento combinamos modelos existentes como ResNet, WideResNet, WideResNet, EfficientNet, MS-TCN, Transformer, ViT y ViViT, e investigamos los modelos efectivos para tareas de lectura labial de palabras utilizando seis modelos de aprendizaje profundo con extractores de características y clasificadores modificados. A través de experimentos de reconocimiento, mostramos que estructuras de modelos similares de 3D-Conv + ResNet18 para extracción de características y el modelo MS-TCN para inferencia son válidos para cuatro conjuntos de datos con diferentes escalas.
Descripción
Este documento estudia varios modelos de aprendizaje profundo para la tecnología de lectura labial a nivel de palabras, una de las tareas en el aprendizaje supervisado de clasificación de video. Varios conjuntos de datos públicos han sido publicados en el campo de investigación de la lectura labial. Sin embargo, pocos estudios han investigado técnicas de lectura labial utilizando múltiples conjuntos de datos. Este documento evalúa modelos de aprendizaje profundo utilizando cuatro conjuntos de datos disponibles públicamente, a saber, Lip Reading in the Wild (LRW), OuluVS, CUAVE y Speech Scene by Smart Device (SSSD), que son conjuntos de datos representativos en este campo. LRW es uno de los conjuntos de datos públicos a gran escala y se centra en 500 palabras en inglés lanzadas en 2016. Inicialmente, la precisión de reconocimiento de LRW era del 66.1%, pero muchos grupos de investigación han estado trabajando en ello. El estado del arte actual (SOTA) ha logrado el 94.1% mediante 3D-Conv + ResNet18 + {DC-TCN, MS-TCN, BGRU} + destilación de conocimiento + límite de palabras. Respecto al modelo SOTA, en este documento combinamos modelos existentes como ResNet, WideResNet, WideResNet, EfficientNet, MS-TCN, Transformer, ViT y ViViT, e investigamos los modelos efectivos para tareas de lectura labial de palabras utilizando seis modelos de aprendizaje profundo con extractores de características y clasificadores modificados. A través de experimentos de reconocimiento, mostramos que estructuras de modelos similares de 3D-Conv + ResNet18 para extracción de características y el modelo MS-TCN para inferencia son válidos para cuatro conjuntos de datos con diferentes escalas.