Exploración de métodos de reconocimiento de lenguaje de señas basados en YOLOv5s mejorados
Autores: Li, Xiaohua; Jettanasen, Chaiyan; Chiradeja, Pathomthat
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Exploración de métodos de reconocimiento de lenguaje de señas basados en YOLOv5s mejorados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Algoritmo basado en YOLOv5s
Reconocimiento de lenguaje de señas
Aprendizaje profundo
Interacción humano-computadora
Reconocimiento de patrones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
El gesto es un medio natural e intuitivo de comunicación interpersonal. El reconocimiento del lenguaje de señas se ha convertido en un tema candente en la investigación científica, teniendo una importancia significativa y un valor de investigación en campos como el aprendizaje profundo, la interacción humano-computadora y el reconocimiento de patrones. El proceso de reconocimiento del lenguaje de señas necesita garantizar un rendimiento en tiempo real y facilidad de implementación. Basándose en estos dos requisitos, este documento propone un algoritmo de reconocimiento de lenguaje de señas basado en YOLOv5s mejorado. Primero, se aplicó el concepto ligero de ShuffleNetV2 para lograr características ligeras y mejorar la implementación del modelo. Las mejoras específicas son las siguientes: El algoritmo logró reducir el tamaño del modelo eliminando la capa Focus, utilizando el algoritmo ShuffleNetv2 y luego la poda de canales YOLOv5 en la cabeza de la capa del cuello. Todas las capas convolucionales y la capa de cuello parcial de la etapa cruzada con tres capas convolucionales en la red principal fueron reemplazadas por ShuffleBlock, la capa de agrupación piramidal espacial y una estructura de capa de cuello parcial de etapa cruzada con tres capas convolucionales fueron eliminadas, y el módulo de capa de cuello parcial de etapa cruzada con tres capas convolucionales en la sección del encabezado de detección fue reemplazado por un módulo convolucional de separación de profundidad. Los resultados experimentales muestran que los parámetros del algoritmo YOLOv5 mejorado disminuyeron de 7,2 M a 0,72 M, y la velocidad de inferencia disminuyó de 3,3 ms a 1,1 ms.
Descripción
El gesto es un medio natural e intuitivo de comunicación interpersonal. El reconocimiento del lenguaje de señas se ha convertido en un tema candente en la investigación científica, teniendo una importancia significativa y un valor de investigación en campos como el aprendizaje profundo, la interacción humano-computadora y el reconocimiento de patrones. El proceso de reconocimiento del lenguaje de señas necesita garantizar un rendimiento en tiempo real y facilidad de implementación. Basándose en estos dos requisitos, este documento propone un algoritmo de reconocimiento de lenguaje de señas basado en YOLOv5s mejorado. Primero, se aplicó el concepto ligero de ShuffleNetV2 para lograr características ligeras y mejorar la implementación del modelo. Las mejoras específicas son las siguientes: El algoritmo logró reducir el tamaño del modelo eliminando la capa Focus, utilizando el algoritmo ShuffleNetv2 y luego la poda de canales YOLOv5 en la cabeza de la capa del cuello. Todas las capas convolucionales y la capa de cuello parcial de la etapa cruzada con tres capas convolucionales en la red principal fueron reemplazadas por ShuffleBlock, la capa de agrupación piramidal espacial y una estructura de capa de cuello parcial de etapa cruzada con tres capas convolucionales fueron eliminadas, y el módulo de capa de cuello parcial de etapa cruzada con tres capas convolucionales en la sección del encabezado de detección fue reemplazado por un módulo convolucional de separación de profundidad. Los resultados experimentales muestran que los parámetros del algoritmo YOLOv5 mejorado disminuyeron de 7,2 M a 0,72 M, y la velocidad de inferencia disminuyó de 3,3 ms a 1,1 ms.