logo móvil
Contáctanos

Modelo de difusión cerebral guiado dual: Reconstrucción de imágenes naturales a partir del estímulo visual humano fMRI

Autores: Meng, Lu; Yang, Chuanhao

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Modelo de difusión cerebral guiado dual: Reconstrucción de imágenes naturales a partir del estímulo visual humano fMRI


Categoría

Ingeniería y Tecnología

Subcategoría

Bioingeniería

Palabras clave

Reconstrucción de señales de fMRI de actividad cerebral en respuesta a estímulos visuales
Neurociencia
Aprendizaje automático

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones


Descripción
La reconstrucción de estímulos visuales a partir de señales de fMRI, que registran la actividad cerebral, es una tarea desafiante con un valor de investigación crucial en los campos de la neurociencia y el aprendizaje automático. Los estudios previos tienden a enfatizar la reconstrucción de características a nivel de píxeles (contornos, colores, etc.) o características semánticas (categoría de objeto) de la imagen del estímulo, pero típicamente, estas propiedades no se reconstruyen juntas. En este contexto, presentamos un enfoque de reconstrucción visual de tres etapas llamado Modelo de Difusión Cerebral Guiado Dual (DBDM). Inicialmente, empleamos el Autoencoder Variacional Muy Profundo (VDVAE) para reconstruir una imagen gruesa a partir de datos de fMRI, capturando los detalles subyacentes de la imagen original. Posteriormente, se utiliza el modelo de Pre-entrenamiento de Lenguaje-Imagen por Bootstrap (BLIP) para proporcionar una anotación semántica para cada imagen. Finalmente, se utiliza el pipeline de generación de imagen a imagen del modelo de Difusión Versátil (VD) para recuperar imágenes naturales a partir de los patrones de fMRI guiados por información visual y semántica. Los resultados experimentales demuestran que DBDM supera en comparaciones cualitativas y cuantitativas a enfoques anteriores. En particular, el mejor rendimiento se logra con DBDM en la reconstrucción de los detalles semánticos de la imagen original; las distancias de Inception, CLIP y SwAV son 0.611, 0.225 y 0.405, respectivamente. Esto confirma la eficacia de nuestro modelo y su potencial para avanzar en la investigación de decodificación visual.

Otros recursos que podrían interesarte

Temas Virtualpro