Red de fusión de características multicue basada en puntos clave (MF-Net) para el reconocimiento de acciones de niños con TDAH en la evaluación TOVA
Autores: Tang, Wanyu; Shi, Chao; Li, Yuanyuan; Tang, Zhonglan; Yang, Gang; Zhang, Jing; He, Ling
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Red de fusión de características multicue basada en puntos clave (MF-Net) para el reconocimiento de acciones de niños con TDAH en la evaluación TOVA
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Trastorno por déficit de atención con hiperactividad
Diagnóstico de TDAH
Detección del comportamiento
Síntomas de impulsividad
Red de Fusión de Características Multi-cue
Puntos clave del cuerpo humano
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
El trastorno por déficit de atención con hiperactividad (TDAH) es un trastorno neurodesarrollmental prevalente entre niños y adolescentes. La detección y análisis del comportamiento juegan un papel crucial en el diagnóstico y evaluación del TDAH al cuantificar objetivamente los síntomas de hiperactividad e impulsividad. Los algoritmos existentes de reconocimiento de acciones basados en video se centran en objetos o interacciones interpersonales, pudiendo pasar por alto comportamientos específicos del TDAH. Los algoritmos actuales basados en keypoints, aunque efectivos para atenuar la interferencia ambiental, tienen dificultades para modelar con precisión los movimientos bruscos e irregulares característicos de los niños con TDAH. Este trabajo propone un sistema basado en keypoints, la Red de Fusión de Características Multi-cue (MF-Net), para reconocer acciones y comportamientos de niños con TDAH durante la Prueba de Variables de Atención (TOVA). El sistema tiene como objetivo evaluar los síntomas del TDAH según se describen en el DSM-V extrayendo características de keypoints del cuerpo humano y facial. Para los keypoints del cuerpo humano, introducimos el Modelo de Red Convolucional de Gráficos Adaptativos con Características Multiescala y Atención de Marcos (MSF-AGCN) para extraer características de movimiento irregular e impulsivo. Para los keypoints faciales, transformamos los datos en imágenes y empleamos MobileVitv2 para el aprendizaje por transferencia y capturar características de movimiento facial y de cabeza. Finalmente, se diseña un módulo de fusión de características para combinar las características de ambas ramas, obteniendo la predicción final de la categoría de acción. El sistema, evaluado en 3801 muestras de video de niños con TDAH, logra un 90.6% de precisión en el top-1 y un 97.6% de precisión en el top-2 en seis categorías de acción. Experimentos de validación adicionales en los conjuntos de datos públicos NW-UCLA, NTU-2D y AFEW-VA verifican el rendimiento de la red.
Descripción
El trastorno por déficit de atención con hiperactividad (TDAH) es un trastorno neurodesarrollmental prevalente entre niños y adolescentes. La detección y análisis del comportamiento juegan un papel crucial en el diagnóstico y evaluación del TDAH al cuantificar objetivamente los síntomas de hiperactividad e impulsividad. Los algoritmos existentes de reconocimiento de acciones basados en video se centran en objetos o interacciones interpersonales, pudiendo pasar por alto comportamientos específicos del TDAH. Los algoritmos actuales basados en keypoints, aunque efectivos para atenuar la interferencia ambiental, tienen dificultades para modelar con precisión los movimientos bruscos e irregulares característicos de los niños con TDAH. Este trabajo propone un sistema basado en keypoints, la Red de Fusión de Características Multi-cue (MF-Net), para reconocer acciones y comportamientos de niños con TDAH durante la Prueba de Variables de Atención (TOVA). El sistema tiene como objetivo evaluar los síntomas del TDAH según se describen en el DSM-V extrayendo características de keypoints del cuerpo humano y facial. Para los keypoints del cuerpo humano, introducimos el Modelo de Red Convolucional de Gráficos Adaptativos con Características Multiescala y Atención de Marcos (MSF-AGCN) para extraer características de movimiento irregular e impulsivo. Para los keypoints faciales, transformamos los datos en imágenes y empleamos MobileVitv2 para el aprendizaje por transferencia y capturar características de movimiento facial y de cabeza. Finalmente, se diseña un módulo de fusión de características para combinar las características de ambas ramas, obteniendo la predicción final de la categoría de acción. El sistema, evaluado en 3801 muestras de video de niños con TDAH, logra un 90.6% de precisión en el top-1 y un 97.6% de precisión en el top-2 en seis categorías de acción. Experimentos de validación adicionales en los conjuntos de datos públicos NW-UCLA, NTU-2D y AFEW-VA verifican el rendimiento de la red.