Edksanet: un eficiente red neuronal de atención dividida de doble núcleo para la clasificación de materiales medicinales tibetanos
Autores: Qi, Jindong; Wangdui, Bianba; Jiang, Jun; Yang, Jie; Zhou, Yanxia
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Edksanet: un eficiente red neuronal de atención dividida de doble núcleo para la clasificación de materiales medicinales tibetanos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Medicina tibetana
Diagnóstico
Métodos de tratamiento
Materiales medicinales
Visión por computadora
Redes neuronales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
La medicina tibetana ha recibido amplio reconocimiento por sus métodos únicos de diagnóstico y tratamiento. La identificación de materiales medicinales tibetanos, que son un componente vital de la medicina tibetana, es un área clave de investigación en este campo. Sin embargo, las redes neuronales visuales tradicionales basadas en el aprendizaje profundo enfrentan desafíos significativos para identificar de manera eficiente y precisa los materiales medicinales tibetanos debido a su gran cantidad, morfología compleja y la escasez de conjuntos de datos visuales públicos. Para abordar este problema, construimos un conjunto de datos de visión por computadora con 300 materiales medicinales tibetanos y propusimos un mecanismo de atención cruzada ligero y eficiente, el módulo de Atención Dividida de Doble Núcleo (DKSA), que puede compartir de manera adaptativa los parámetros del núcleo en dimensiones espaciales y de canal. Basándonos en el módulo DKSA, logramos una unificación eficiente de la convolución y la autoatención bajo la arquitectura de CNN y desarrollamos una nueva arquitectura de columna vertebral ligera, EDKSANet, para proporcionar un rendimiento mejorado para diversas tareas de visión por computadora. En comparación con RedNet, la precisión top-1 se mejora en un 1,2% en un conjunto de datos de ImageNet, y se obtiene un margen mayor de +1,5 box AP para la detección de objetos y una mejora de +1,3 mask AP para la segmentación de instancias en el conjunto de datos MS-COCO. Además, EDKSANet logró un excelente rendimiento de clasificación en el conjunto de datos de materiales medicinales tibetanos, con una precisión de hasta el 96,85%.
Descripción
La medicina tibetana ha recibido amplio reconocimiento por sus métodos únicos de diagnóstico y tratamiento. La identificación de materiales medicinales tibetanos, que son un componente vital de la medicina tibetana, es un área clave de investigación en este campo. Sin embargo, las redes neuronales visuales tradicionales basadas en el aprendizaje profundo enfrentan desafíos significativos para identificar de manera eficiente y precisa los materiales medicinales tibetanos debido a su gran cantidad, morfología compleja y la escasez de conjuntos de datos visuales públicos. Para abordar este problema, construimos un conjunto de datos de visión por computadora con 300 materiales medicinales tibetanos y propusimos un mecanismo de atención cruzada ligero y eficiente, el módulo de Atención Dividida de Doble Núcleo (DKSA), que puede compartir de manera adaptativa los parámetros del núcleo en dimensiones espaciales y de canal. Basándonos en el módulo DKSA, logramos una unificación eficiente de la convolución y la autoatención bajo la arquitectura de CNN y desarrollamos una nueva arquitectura de columna vertebral ligera, EDKSANet, para proporcionar un rendimiento mejorado para diversas tareas de visión por computadora. En comparación con RedNet, la precisión top-1 se mejora en un 1,2% en un conjunto de datos de ImageNet, y se obtiene un margen mayor de +1,5 box AP para la detección de objetos y una mejora de +1,3 mask AP para la segmentación de instancias en el conjunto de datos MS-COCO. Además, EDKSANet logró un excelente rendimiento de clasificación en el conjunto de datos de materiales medicinales tibetanos, con una precisión de hasta el 96,85%.