Modelo de difusión cerebral guiado dual: Reconstrucción de imágenes naturales a partir del estímulo visual humano fMRI
Autores: Meng, Lu; Yang, Chuanhao
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Modelo de difusión cerebral guiado dual: Reconstrucción de imágenes naturales a partir del estímulo visual humano fMRI
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Reconstrucción de señales de fMRI de actividad cerebral en respuesta a estímulos visuales
Neurociencia
Aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
La reconstrucción de estímulos visuales a partir de señales de fMRI, que registran la actividad cerebral, es una tarea desafiante con un valor de investigación crucial en los campos de la neurociencia y el aprendizaje automático. Los estudios previos tienden a enfatizar la reconstrucción de características a nivel de píxeles (contornos, colores, etc.) o características semánticas (categoría de objeto) de la imagen del estímulo, pero típicamente, estas propiedades no se reconstruyen juntas. En este contexto, presentamos un enfoque de reconstrucción visual de tres etapas llamado Modelo de Difusión Cerebral Guiado Dual (DBDM). Inicialmente, empleamos el Autoencoder Variacional Muy Profundo (VDVAE) para reconstruir una imagen gruesa a partir de datos de fMRI, capturando los detalles subyacentes de la imagen original. Posteriormente, se utiliza el modelo de Pre-entrenamiento de Lenguaje-Imagen por Bootstrap (BLIP) para proporcionar una anotación semántica para cada imagen. Finalmente, se utiliza el pipeline de generación de imagen a imagen del modelo de Difusión Versátil (VD) para recuperar imágenes naturales a partir de los patrones de fMRI guiados por información visual y semántica. Los resultados experimentales demuestran que DBDM supera en comparaciones cualitativas y cuantitativas a enfoques anteriores. En particular, el mejor rendimiento se logra con DBDM en la reconstrucción de los detalles semánticos de la imagen original; las distancias de Inception, CLIP y SwAV son 0.611, 0.225 y 0.405, respectivamente. Esto confirma la eficacia de nuestro modelo y su potencial para avanzar en la investigación de decodificación visual.
Descripción
La reconstrucción de estímulos visuales a partir de señales de fMRI, que registran la actividad cerebral, es una tarea desafiante con un valor de investigación crucial en los campos de la neurociencia y el aprendizaje automático. Los estudios previos tienden a enfatizar la reconstrucción de características a nivel de píxeles (contornos, colores, etc.) o características semánticas (categoría de objeto) de la imagen del estímulo, pero típicamente, estas propiedades no se reconstruyen juntas. En este contexto, presentamos un enfoque de reconstrucción visual de tres etapas llamado Modelo de Difusión Cerebral Guiado Dual (DBDM). Inicialmente, empleamos el Autoencoder Variacional Muy Profundo (VDVAE) para reconstruir una imagen gruesa a partir de datos de fMRI, capturando los detalles subyacentes de la imagen original. Posteriormente, se utiliza el modelo de Pre-entrenamiento de Lenguaje-Imagen por Bootstrap (BLIP) para proporcionar una anotación semántica para cada imagen. Finalmente, se utiliza el pipeline de generación de imagen a imagen del modelo de Difusión Versátil (VD) para recuperar imágenes naturales a partir de los patrones de fMRI guiados por información visual y semántica. Los resultados experimentales demuestran que DBDM supera en comparaciones cualitativas y cuantitativas a enfoques anteriores. En particular, el mejor rendimiento se logra con DBDM en la reconstrucción de los detalles semánticos de la imagen original; las distancias de Inception, CLIP y SwAV son 0.611, 0.225 y 0.405, respectivamente. Esto confirma la eficacia de nuestro modelo y su potencial para avanzar en la investigación de decodificación visual.